WO2001091106A1 - Adaptive analysis windows for speech recognition - Google Patents

Adaptive analysis windows for speech recognition Download PDF

Info

Publication number
WO2001091106A1
WO2001091106A1 PCT/FR2001/001218 FR0101218W WO0191106A1 WO 2001091106 A1 WO2001091106 A1 WO 2001091106A1 FR 0101218 W FR0101218 W FR 0101218W WO 0191106 A1 WO0191106 A1 WO 0191106A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
window
voice
time window
voice recognition
Prior art date
Application number
PCT/FR2001/001218
Other languages
French (fr)
Inventor
Frédéric SOUFFLET
Teddy Furon
Original Assignee
Thomson Licensing S.A.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing S.A. filed Critical Thomson Licensing S.A.
Priority to AU2001254892A priority Critical patent/AU2001254892A1/en
Publication of WO2001091106A1 publication Critical patent/WO2001091106A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Definitions

  • the present invention relates to the field of voice interfaces.
  • the invention relates to the optimization of phonetic-acoustic decoders (or "front-end” in English) used in voice recognition for example for interface applications or human-machine dialogues.
  • the phonetic-acoustic decoders produce acoustic vectors at regular intervals, by applying a sampling window to a speech signal to be processed. These vectors are then generally delivered to a voice recognition engine as described in the book by Frederik Jelinek "Statistical methods for speech recognition” (or in French “statistical methods for voice recomiaissance”) published by MIT Press in 1997.
  • Information and control systems are increasingly using a voice interface to make interaction with the user quick and intuitive. As these systems become more complex, the styles of dialogue supported are more and more rich and varied.
  • a vowel maintained for a long time contains more information for recognition than a short vowel and thus the contribution to a score final state associated with the vowel should be maximum for long pronunciation.
  • the invention aims in particular to overcome these drawbacks of the prior art.
  • an object of the invention is to provide a method and a device for voice recognition making it possible to respond effectively to the problems posed by spontaneous speech, with long voiced sounds for example, without penalizing the processing of standard speech which does not contains neither hesitation nor slowness.
  • the invention proposes a voice recognition method comprising a sampling step in which a voice signal is sampled in a time window, remarkable in that it comprises a step of modifying the length of the time window, based on at least one predetermined criterion.
  • the invention makes it possible to consider a more or less large number of samples as a function of the length of the time window which makes it possible to take into account, for example, long voiced sounds, hesitations and slowness without penalizing speakers speaking d 'on a regular basis.
  • the method is remarkable in that one of the predetermined criteria is information representative of the stationary of the voice signal, the length of the time window being all the greater the more the voice signal is stationary. It is recalled that a signal is stationary if it is the reproduction (or more generally quasi-reproduction) periodic, according to a given frequency, of the same temporal pattern.
  • the voice recognition method advantageously allows the stationing of the signal to be taken into account from the acoustico-phonetic decoding step, which results in a relatively simple implementation and greater efficiency of the recognition engine.
  • the number of acoustic vectors sent to the recognition engine is lower than in the techniques of the state of the art in a given time interval, the computation time necessary for the recognition engine to decode a signal is reduced.
  • the method is remarkable in that the information representative of the statiormarity of the voice signal is obtained during a step of analysis of the signal taking into account a psycho-acoustic model.
  • the method is remarkable in that the step of analyzing the stationing of the voice signal comprises an analysis of formants in the voice signal, allowing the detection of voiced sounds.
  • the method is remarkable in that one of the predetermined criteria is information representative of the presence of a voiced sound, the length of the time window being all the greater when a voiced sound has been detected. in the voice signal.
  • the invention also relates to a voice recognition device comprising a sampler for sampling a voice signal in a time window and comprising means for modifying the length of the time window, as a function of at least one predetermined criterion.
  • the invention further relates to a speech recognition computer program product comprising program elements, recorded on a medium readable by at least one processing device, remarkable in that the program elements control the device so that it performs :
  • the invention also relates to a computer program product characterized in that said program comprises sequences of instructions suitable for implementing the voice recognition method as described above when the program is executed on a computer.
  • the advantages of the voice recognition device, and of the computer program products are the same as those of the voice recognition method, they are not described in more detail.
  • FIG. 1 shows a general block diagram of a system comprising a voice-controlled unit, in which the technique of the invention is implemented;
  • FIG. 2 shows a block diagram of the voice recognition unit of the system of Figure 1;
  • Figure 3 describes an electronic diagram of a voice recognition unit implementing the block diagram of Figure 2;
  • FIG. 4 shows a voice signal sampled in accordance with the state of the art
  • FIG. 5 shows a voice signal sampled according to the invention according to a particular embodiment
  • FIG. 6 shows two successive sampling windows of the signal as illustrated with reference to Figure 5;
  • FIG. 7 shows a flow diagram for processing voice domes as implemented by the voice recognition unit of Figures 2 and 3;
  • Figure 11 shows the voice signal of Figure 8 processed in a larger sampling window
  • FIG. 12 shows an example of a sampled voice signal close to the sound of the stop "T" of the word "SMALL", at the input of an element of the voice box illustrated with reference to FIG. 1.
  • the general principle of the invention therefore rests on the adaptation of the size of the sampling window of a voice signal.
  • the invention thus proposes to replace a processing based on a window of fixed size, which delivers acoustic vectors at regular intervals, according to a fixed period (whose value is often close to 10 ms) independently of the information coded by an extraction. vector acoustics on variable size windows and non regular intervals, all the more spaced as the variation of information contained in the signal is weak.
  • the principle of the invention is to provide an acoustic vector not regularly over time, independently of the information contained in the signal, but to provide a vector each time the information contained in the signal changes sufficiently. This is more in line with the principle of Markov networks used in decoding.
  • a stationary analysis is performed.
  • This stationary analysis is for example similar to that used in the EPAC coder, which is based on the principle of perceptual analysis as described in the document "The AT&T Perceptual Audio Coder (PAC)" (in French “le codeur audio perceptuel from AT&T ”) written by JD Johnston and D. Sinha, presented at the AES convention (in New York in October 1995).
  • PAC Perceptual Audio Coder
  • MP3 MPEG-1 layer 3
  • Dolby AC-3 coders and described in particular in the document "The modulated lapped transform, its tile-varying form, and its applications to audio coding standards "(in French,” overlapping and modulated transformation, its variable form, and its applications to audio coding standards "), written by S.
  • Shlien IEEE Transaction on Speech Audio Processing, vol. 5, pp359-366, July 1997.
  • a so-called "perfect reconstruction" constraint limits the size of the windows used, because it is necessary to be able to reconstruct the coded signal, for listening.
  • this constraint does not exist, and a different and more suitable method for voice recognition is described below with regard to a particular embodiment. According to the invention, by combining a stationary analysis with a method for determining and adjusting the sampling window, a long voiced sound will use a long window while a short voiced sound will use a short analysis window.
  • the size of the window is multiplied by a multiplicative coefficient for example equal to 2. If the signal is not stationary, the size of the window is divided by a divisor coefficient ⁇ for example equal to 2.
  • the window size is thus enlarged or decreased one or more times: - until the window size is the largest window size for which the signal is stationary; or
  • the modification of the length of the window is carried out dynamically or adaptively.
  • the samples corresponding to this window size are processed and the process is repeated with a window shifted by a third compared to the initial window and an initial window size allowing the acquisition of NInit voice samples. .
  • NInit NMin
  • NMax a
  • the different values, NInit, NMin, NMax, a, ⁇ are configurable or even variable, as is the offset value between two iterations of the process.
  • FIG. 1 a general block diagram of a system comprising a voice-controlled unit 102 implementing the technique of the invention.
  • this system notably includes:
  • control unit 105 intended to control an apparatus 107
  • a controlled device 107 for example of the television or video recorder type.
  • the source 100 is connected to the voice recognition unit 102, via a link 101 which allows it to transmit an analog source wave representative of a voice signal to the unit 102.
  • the unit 102 can retrieve context information 104 (such as for example, the type of device 107 that can be controlled by the control unit 105 or the list of command codes) via a link 104 and send to the control unit 105 of commands via a link 103.
  • context information 104 such as for example, the type of device 107 that can be controlled by the control unit 105 or the list of command codes
  • the control unit 105 sends commands via a link 106, for example infrared, to the device 107.
  • a link 106 for example infrared
  • the source 100, the voice recognition unit 102 and the control unit 105 are part of the same device and thus the links 101, 103 and 104 are internal links to the device.
  • the link 106 is typically a wireless link.
  • the source 100, the boxes 102 and 105 and the device 107 are part of the same device and are connected to each other by internal buses (links 101, 103, 104 and 106).
  • This variant is particularly advantageous when the device is, for example, a telephone or portable telecommunication terminal.
  • the box 102 receives from the outside the analog source wave 101 which is processed by an Acoustic-Phonetic Decoder 200 or DAP (called “front-end” in English).
  • the DAP 200 samples at regular intervals (typically every 10 ms) the source wave 101 to produce real vectors or those belonging to code books (or “code books” in English), typically representing oral resonances which are emitted via a link 201 to a recognition engine 203.
  • the recognition engine 203 analyzes the real vectors which it receives using in particular hidden Markov models or HMM (from the English Hidden Markov Models) and language models (which represent the probability that a word will follow another word).
  • HMM hidden Markov models
  • language models which represent the probability that a word will follow another word.
  • FIG. 3 schematically illustrates a voice recognition module or device 102 as illustrated with reference to Figure 1, and implementing the block diagram of Figure 2.
  • the housing 102 comprises interconnected by an address and data bus:
  • register designates in each of the memories mentioned, both a low-capacity memory area (some binary data) and a high-capacity memory area
  • Non-volatile memory 305 (or ROM) stores in registers which, for convenience, have the same names as the domiés they keep:
  • processor 304 the operating program of processor 304 in a "prog" register 308; - a dictionary of words to be understood by the recognition engine in a register 309;
  • NMin value (worth for example 64), representing a minimum value of window size in a register 311;
  • NMax value (worth for example 2048), representing a maximum value of window size in a register 312.
  • the random access memory 306 stores data, variables and intermediate processing results and comprises in particular: - a register 313 in which values of bo, and e representative of the glottal excitation of the received signal are stored;
  • FIG. 4 represents a voice signal sampled in accordance with the state of the art.
  • the voice signal 400 is represented along two axes:
  • the signal 400 is sampled at regular intervals in a window 403 of fixed duration L and containing a fixed number of samples, equal to N.
  • the sampling window is shifted by a time t equal to J / 3.
  • a second window 404 is thus obtained, then a third window 405 of the same length L as the window 403.
  • FIG. 5 represents a voice signal sampled according to a particular embodiment of the invention as it is implemented in the box illustrated with reference to FIGS. 2 and 3.
  • the voice signal 400 is represented in the same way as in FIG. 4.
  • the signal 400 is sampled at regular intervals in a window 500 of initial duration L and containing a number of samples, equal to N.
  • the size of the sampling window can be:
  • FIG. 6 more particularly illustrates the offset between two successive windows as they are implemented in the housing illustrated with reference to FIGS. 2 and 3.
  • the voice signal 400 is represented in the same way as in FIG. 5.
  • the signal 400 is sampled at regular intervals in a window 501 for example of final duration L / 2 and containing a number d 'samples equal to N / 2 (this value having been obtained by execution of the algorithm illustrated with reference to FIG. 7).
  • a new windowing is determined from a first window 600:
  • FIG. 7 represents a flow diagram for processing the voice data as implemented by the voice recognition unit of FIGS. 2 and 3.
  • the unit 102 launches the program Prog 308 and initializes the various variables (in particular the value of t0, initial instant corresponding to the start of a first window containing samples). Then, during a step 701, the unit 102 performs sampling at a frequency of 22050 Hz and an analog / digital conversion of the voice signal 400 which it receives.
  • the box 102 After having sampled enough samples (for example a number greater than or equal to the value NMax 312 stored in memory 305) during a step 702, the box 102 initializes the size of the window, N, to a predetermined value
  • NInit 310 for example equal to 512.
  • This predetermined value is an average value of N between NMin 311 and NMax 312.
  • the value of NInit is equal to NMin, the value of Nne can then only increase. Indeed, in attack of sentence or word, one is very often in a non stationary zone of the vocal signal.
  • the value of NInit is equal to NM ⁇ x, the value of Nne can then decrease.
  • the housing 102 performs windowing corresponding to a window of current size N and starting at time t0. Then, during a step 704, the housing 102 performs a psycho-acoustic conversion and a perceptual analysis.
  • the housing 102 determines whether in the analysis window of current size N, the signal is stationary.
  • the housing 102 determines whether the value of N has reached a maximum limit or in other words if the value of N multiplied by 2 is strictly greater than the value of NM ⁇ x 312 stored in memory.
  • the box 102 performs windowing corresponding to a window of the last current size N and starting at an instant t0 which is the same as the window start time defined by the last windowing step 703.
  • step 709 of psycho-acoustic conversion and perceptual analysis taking into account the samples of the current window, step 709 being quite similar to step 704 previously described.
  • the box determines whether in the analysis window of current size N, the signal is stationary.
  • test 706 If the result of test 710 is positive, test 706 is repeated. If the result of test 710 is negative, we return to the previous window size, that is to say N / 2 which is the largest window size which led to a stationary signal within the window. Thus, we assign to N the value N divided by 2.
  • the housing 102 determines whether the value of N has reached a minimum limit or in other words if the value of N divided by 2 is strictly greater than the NMin 311 value stored in memory.
  • the housing 102 performs windowing corresponding to a window of the last current size N and starting at a time t0 which is the same as the start time of the window defined by the last step fenestration 703. Then, the housing 102 performs a step 715 of psycho-acoustic conversion and perceptual analysis taking into account the samples of the current window, step 715 being quite similar to step 704 previously described .
  • test 716 of statiormarity similar to test 705 the box determines if in the current size analysis window N, the signal is stationary.
  • test 716 If the result of test 716 is negative, the signal is not stationary in the current window and test 706 is repeated.
  • a step 717 is carried out in one of the following cases: after a step 711; - after a positive result in test 706 of reaching a maximum value of
  • the housing 102 performs a calculation of the acoustic coefficients, delivers them to the recognition engine 203 and then performs an offset of the value of the instant tO which becomes equal to tO to which a duration equal to one third of the size of the current window is added (or in other words to a duration equal to the duration of reception of N / 3 samples) .
  • the samples received before the new time t0 are no longer useful and can then be discarded.
  • FIG. 8 shows the example of a signal 800 close to the vowel sound
  • a first step consists in filtering the signal 800 by a low-pass filter, to remove unnecessary details from the sound wave.
  • Figure 9 illustrates: - points 906, 908, 911, 913 and 915 obtained on the rising edge;
  • a thresholding is then carried out, that is to say that the rising edge points whose associated next maximum value is less than a threshold S, calculated, are eliminated. as a fraction of the maximum value M (level of point 919 according to the example) on the window. This fraction can typically take a value equal to 0.3. We do the same for the falling fronts.
  • points 908 and 913 are eliminated while no point corresponding to a falling edge is.
  • the window with 1024 values is represented in FIG. 11, for the signal 1100 before filtering.
  • the algorithm described above determines that the signal is always stationary on this window. The algorithm continues until the maximum allowable size NMax is reached, typically 2048 values, or a non-stationary one is encountered.
  • a Fourier analysis on the source form of the signal supplemented with a few translates (4 typically) and make a psycho-acoustic analysis to determine, if the spectral content obtained would be judged different by a listener from the spectral content obtained on the following basic form.
  • FIG. 12 illustrates the signal 1200 on a window of 512 values of the non-stationary sound of the stopper "T" in the word "SMALL".
  • the algorithm concludes that the signal is not statiormarried and therefore the window is not enlarged, but a new one window of the same size shifted, for example, by 256 values is generated to start a new analysis.
  • window size variations for example which may be significant at the start of a window size determination step and more fine at the end;
  • the window size determination step (which can be based for example on a regular increase and / or decrease in window sizes or on a dichotomy between two window size values); and or
  • the voice recognition engine extends to any type of engine using acoustic vectors produced by an acoustico-phonetic decoder with a window of variable size according to the invention.
  • the invention is not limited to a purely material installation but that it can also be implemented in the form of a sequence of instructions of a computer program or any form mixing a material part and a part software.
  • the corresponding sequence of instructions may be stored in a removable storage means (such as for example a floppy disk, a CD-ROM or a DVD-ROM) or no, this storage means being partially or totally readable by a computer or a microprocessor.

Abstract

The invention concerns speech recognition comprising a sampling step which consists in sampling a voice signal (400) in a time window (501) and a step which consists in modifying (707, 713) the length of the time window, on the basis of at least a predetermined criterion.

Description

FENÊTRES D ' ANALYSE ADAPTATIVES POUR LA RECONNAISSANCE DE LA PAROLE ADAPTIVE ANALYSIS WINDOWS FOR SPEECH RECOGNITION
La présente invention se rapporte au domaine des interfaces vocales.The present invention relates to the field of voice interfaces.
Plus précisément, l'invention concerne l'optimisation des décodeurs phonético-accoustiques (ou " front-end " en anglais) utilisés en reconnaissance vocale par exemple pour des applications d'interface ou des dialogues homme-machine.More specifically, the invention relates to the optimization of phonetic-acoustic decoders (or "front-end" in English) used in voice recognition for example for interface applications or human-machine dialogues.
Selon les techniques connues, les décodeurs phonético-acoustiques produisent des vecteurs acoustiques à intervalles réguliers, en appliquant une fenêtre d'échantillonnage sur un signal vocal à traiter. Ces vecteurs sont ensuite généralement délivrés à un moteur de reconnaissance vocale tel que décrit dans le livre de Frederik Jelinek " Statistical methods for speech récognition " (ou en français " méthodes statistiques pour la recomiaissance vocale ") paru aux éditions MIT Press en 1997.According to known techniques, the phonetic-acoustic decoders produce acoustic vectors at regular intervals, by applying a sampling window to a speech signal to be processed. These vectors are then generally delivered to a voice recognition engine as described in the book by Frederik Jelinek "Statistical methods for speech recognition" (or in French "statistical methods for voice recomiaissance") published by MIT Press in 1997.
Différents types de méthodes permettant d'obtenir une modélisation utilisée pour la reconnaissance vocale. Aujourd'hui, les méthodes les plus utilisées sont les MFCC (de l'anglais " Mel Frequency Cepstral Coefficients " ou, en français " coefficients cepstraux calculés sur une échelle à fréquences Mel"), la méthode PLP (de l'anglais " Perceptive Linear Prédiction " ou prédiction perceptive linéaire) pour la reconnaissance non bruitée et la méthode dite RASTA-PLP, pour la reconnaissance bruitée, ou au travers de lignes téléphoniques qui distordent le signal. Ces techniques sont notamment décrites dans l'article " Spectral Signal Processing for ASR " écrit par M. Hunt et paru dans le recueil " Proceedings 1999 IEEE Automatic Speech Récognition and Understanding Workshop, Colorado, USA, December 12-15 " ainsi que dans l'article " Perceptual linear prédictive (PLP) analysis of speech " écrit par H. Hermansky et paru dans le numéro d'avril 1990 de la revue Journal of Acoustical Society of America.Different types of methods to obtain a modeling used for speech recognition. Today, the most used methods are the MFCC (from the English "Mel Frequency Cepstral Coefficients" or, in French "cepstral coefficients calculated on a scale with Mel frequencies"), the PLP method (from the English "Perceptive Linear Prediction "or linear perceptual prediction) for noiseless recognition and the so-called RASTA-PLP method, for noisy recognition, or through telephone lines which distort the signal. These techniques are notably described in the article "Spectral Signal Processing for ASR" written by M. Hunt and published in the collection "Proceedings 1999 IEEE Automatic Speech Récognition and Understanding Workshop, Colorado, USA, December 12-15" as well as in the article "Perceptual linear predictive (PLP) analysis of speech" written by H. Hermansky and published in the April 1990 issue of the Journal of Acoustical Society of America.
Les systèmes d'information ou de contrôle utilisent de plus en plus souvent une interface vocale pour rendre l'interaction avec l'utilisateur, rapide et intuitive. Ces systèmes devenant plus complexes, les styles de dialogue supportés sont de plus en plus riches et variés.Information and control systems are increasingly using a voice interface to make interaction with the user quick and intuitive. As these systems become more complex, the styles of dialogue supported are more and more rich and varied.
Pour des applications mettant en jeu des procédés à reconnaissance vocale, notamment grand public, il est important que la reconnaissance vocale utilisée supporte un style de parole spontanée comportant par exemple des hésitations, des silences en milieu de phrases, des bafouillages, ... La plupart des systèmes de reconnaissance sont basés sur l'utilisation de réseaux de Markov cachés (ou HMM de l'anglais " Hidden Markov Models "), pour modéliser l'enchaînement temporel des unités phonétiques composant la langue. Or dans de tels systèmes, la durée du son est représentée par une exponentielle décroissante de la probabilité de maintien dans un même état.For applications involving voice recognition methods, in particular for the general public, it is important that the voice recognition used supports a spontaneous speech style comprising, for example, hesitation, silence in the middle of sentences, stuttering, etc. most recognition systems are based on the use of hidden Markov networks (or HMM) to model the temporal sequence of the phonetic units composing the language. However in such systems, the duration of the sound is represented by a decreasing exponential of the probability of maintenance in the same state.
Les inventeurs ont constaté que cette manière de faire n'est pas cohérente avec l'observation et que, par exemple, une voyelle maintenue longtemps contient plus d'information pour la reconnaissance qu'une voyelle courte et qu'ainsi la contribution à un score final de l'état associé à la voyelle devrait être maximale pour la prononciation longue.The inventors have found that this way of doing things is not consistent with observation and that, for example, a vowel maintained for a long time contains more information for recognition than a short vowel and thus the contribution to a score final state associated with the vowel should be maximum for long pronunciation.
Des variantes de la solution basée sur les HMM standard, ont été proposées pour remédier à cet inconvénient. Ainsi, selon le document " Explicit modelling of state occupancy in hidden markov models for automatic speech " écrit par MJ Russel et RKVariants of the solution based on standard HMMs have been proposed to remedy this drawback. Thus, according to the document "Explicit modeling of state occupancy in hidden markov models for automatic speech" written by MJ Russel and RK
Moore, (paru dans proceedings ICASSP, pages 5 à 8, en 1985), la durée de l'état est explicitement fournie, et n'est pas de type exponentiellement décroissant.Moore, (published in ICASSP proceedings, pages 5 to 8, in 1985), the duration of the state is explicitly provided, and is not of the exponentially decreasing type.
Selon cette approche, il existe une valeur optimale de durée d'un son dans la prononciation d'un mot. Cette durée peut être longue ou courte. Il est donc possible de ne pas pénaliser les sons voisés soutenus. Mais alors, inversement, c'est la parole standard qui reçoit un score plus faible. Le problème est ainsi simplement déplacé.According to this approach, there is an optimal value for the duration of a sound in the pronunciation of a word. This duration can be long or short. It is therefore possible not to penalize sustained voiced sounds. But then, conversely, it is standard speech which receives a lower score. The problem is thus simply displaced.
L'invention selon ses différents aspects a notamment pour objectif de pallier ces inconvénients de l'art antérieur.The invention according to its different aspects aims in particular to overcome these drawbacks of the prior art.
Plus précisément, un objectif de l'invention est de fournir un procédé et un dispositif de reconnaissance vocale permettant de répondre efficacement aux problèmes posés par la parole spontanée, avec des sons voisés longs par exemple, sans pénaliser le traitement de la parole standard qui ne contient ni hésitation, ni lenteur.More specifically, an object of the invention is to provide a method and a device for voice recognition making it possible to respond effectively to the problems posed by spontaneous speech, with long voiced sounds for example, without penalizing the processing of standard speech which does not contains neither hesitation nor slowness.
Dans ce but, l'invention propose un procédé de reconnaissance vocale comprenant une étape d'échantillonnage dans laquelle on échantillonne un signal vocal dans une fenêtre temporelle, remarquable en ce qu'il comprend une étape de modification de la longueur de la fenêtre temporelle, en fonction d'au moins un critère prédéterminé.To this end, the invention proposes a voice recognition method comprising a sampling step in which a voice signal is sampled in a time window, remarkable in that it comprises a step of modifying the length of the time window, based on at least one predetermined criterion.
Ainsi, l'invention permet de considérer un nombre plus ou moins grand d'échantillons en fonction de la longueur de la fenêtre temporelle qui permet de prendre en compte par exemple les sons voisés longs, les hésitations et les lenteurs sans pénaliser les locuteurs parlant d'une manière régulière.Thus, the invention makes it possible to consider a more or less large number of samples as a function of the length of the time window which makes it possible to take into account, for example, long voiced sounds, hesitations and slowness without penalizing speakers speaking d 'on a regular basis.
Selon une caractéristique particulière, le procédé est remarquable en ce que l'un des critères prédéterminés est une information représentative de la stationnante du signal vocal, la longueur de la fenêtre temporelle étant d'autant plus grande que le signal vocal est stationnaire. On rappelle qu'un signal est stationnaire si il est la reproduction (ou plus généralement la quasi-reproduction) périodique, selon une fréquence donnée, d'un même motif temporel.According to a particular characteristic, the method is remarkable in that one of the predetermined criteria is information representative of the stationary of the voice signal, the length of the time window being all the greater the more the voice signal is stationary. It is recalled that a signal is stationary if it is the reproduction (or more generally quasi-reproduction) periodic, according to a given frequency, of the same temporal pattern.
Ainsi, le procédé de reconnaissance vocale permet avantageusement la prise en compte de la stationnante du signal dès l'étape de décodage acoustico-phonétique, ce qui entraîne une mise en œuvre relativement simple et une plus grande efficacité du moteur de reconnaissance. Particulièrement, puisque le nombre de vecteurs acoustiques envoyés au moteur de reconnaissance est plus faible que dans les techniques de l'état de l'art dans un intervalle de temps donné, le temps de calcul nécessaire pour que le moteur de reconnaissance décode un signal est réduit.Thus, the voice recognition method advantageously allows the stationing of the signal to be taken into account from the acoustico-phonetic decoding step, which results in a relatively simple implementation and greater efficiency of the recognition engine. In particular, since the number of acoustic vectors sent to the recognition engine is lower than in the techniques of the state of the art in a given time interval, the computation time necessary for the recognition engine to decode a signal is reduced.
Selon une caractéristique particulière, le procédé est remarquable en ce que l'information représentative de la statiormarité du signal vocal est obtenue lors d'une étape d'analyse du signal tenant compte d'un modèle psycho-acoustique.According to a particular characteristic, the method is remarkable in that the information representative of the statiormarity of the voice signal is obtained during a step of analysis of the signal taking into account a psycho-acoustic model.
Selon une caractéristique particulière, le procédé est remarquable en ce que l'étape d'analyse de la stationnante du signal vocal comprend une analyse de formants dans le signal vocal, permettant la détection de sons voisés.According to a particular characteristic, the method is remarkable in that the step of analyzing the stationing of the voice signal comprises an analysis of formants in the voice signal, allowing the detection of voiced sounds.
Selon une caractéristique particulière, le procédé est remarquable en ce qu'un des critères prédéterminés est une information représentative de la présence d'un son voisé, la longueur de la fenêtre temporelle étant d'autant plus grande qu'un son voisé a été détecté dans le signal vocal.According to a particular characteristic, the method is remarkable in that one of the predetermined criteria is information representative of the presence of a voiced sound, the length of the time window being all the greater when a voiced sound has been detected. in the voice signal.
L'invention concerne également un dispositif de reconnaissance vocale comprenant un échantillonneur pour échantillonner un signal vocal dans une fenêtre temporelle et comprenant un moyen de modification de la longueur de la fenêtre temporelle, en fonction d'au moins un critère prédéterminé. L'invention concerne en outre un produit programme d'ordinateur de reconnaissance vocale comprenant des éléments de programme, enregistrés sur un support lisible par au moins un dispositif de traitement, remarquable en ce que les éléments de programme contrôlent le dispositif pour qu'il effectue :The invention also relates to a voice recognition device comprising a sampler for sampling a voice signal in a time window and comprising means for modifying the length of the time window, as a function of at least one predetermined criterion. The invention further relates to a speech recognition computer program product comprising program elements, recorded on a medium readable by at least one processing device, remarkable in that the program elements control the device so that it performs :
- une étape d'échantillonnage dans laquelle on échantillonne un signal vocal dans une fenêtre temporelle ; et- a sampling step in which a voice signal is sampled in a time window; and
- une étape de modification de la longueur de la fenêtre temporelle en fonction d'au moins un critère prédéterminé.a step of modifying the length of the time window as a function of at least one predetermined criterion.
L'invention concerne aussi un produit programme d'ordinateur caractérisé en ce que ledit programme comprend des séquences d'instructions adaptées à la mise en œuvre du procédé de reconnaissance vocale tel que décrit précédemment lorsque le programme est exécuté sur un ordinateur. Les avantages du dispositif de reconnaissance vocale, et des produits programme d'ordinateur sont les mêmes que ceux du procédé de reconnaissance vocale, ils ne sont pas détaillés plus amplement.The invention also relates to a computer program product characterized in that said program comprises sequences of instructions suitable for implementing the voice recognition method as described above when the program is executed on a computer. The advantages of the voice recognition device, and of the computer program products are the same as those of the voice recognition method, they are not described in more detail.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels :Other characteristics and advantages of the invention will appear more clearly on reading the following description of a preferred embodiment, given by way of simple illustrative and nonlimiting example, and of the appended drawings, among which:
- la figure 1 présente un synoptique général d'un système comprenant un boîtier à commande vocale, dans lequel la technique de l'invention est mise en œuvre; - la figure 2 présente un synoptique du boîtier de reconnaissance vocale du système de la figure 1 ;- Figure 1 shows a general block diagram of a system comprising a voice-controlled unit, in which the technique of the invention is implemented; - Figure 2 shows a block diagram of the voice recognition unit of the system of Figure 1;
- la figure 3 décrit un schéma électronique d'un boîtier de reconnaissance vocale mettant en œuvre le synoptique de la figure 2;- Figure 3 describes an electronic diagram of a voice recognition unit implementing the block diagram of Figure 2;
- la figure 4 représente un signal vocal échantillonné conformément à l'état de l'art;- Figure 4 shows a voice signal sampled in accordance with the state of the art;
- la figure 5 représente un signal vocal échantillonné conformément à l'invention selon un mode particulier de réalisation;- Figure 5 shows a voice signal sampled according to the invention according to a particular embodiment;
- la figure 6 représente deux fenêtres d'échantillonnage successives du signal tel qu'illustré en regard de la figure 5; - la figure 7 représente un organigramme de traitement des dom ées vocales tel que mis en œuvre par le boîtier de reconnaissance vocale des figures 2 et 3 ;- Figure 6 shows two successive sampling windows of the signal as illustrated with reference to Figure 5; - Figure 7 shows a flow diagram for processing voice domes as implemented by the voice recognition unit of Figures 2 and 3;
- la figure 8 montre un exemple de signal vocal échantillonné proche du son de la voyelle " I ", à l'entrée d'un élément du boîtier vocal illustré en regard de la figure 1 ; - les figures 9 et 10 illustrent le signal vocal de la figure 8 après filtrage par le boîtier vocal de la figure 1;- Figure 8 shows an example of sampled voice signal close to the sound of the vowel "I", at the input of an element of the voice box illustrated with reference to Figure 1; - Figures 9 and 10 illustrate the voice signal of Figure 8 after filtering by the voice box of Figure 1;
- la figure 11 représente le signal vocal de la figure 8 traité dans une fenêtre d'échantillonnage plus grande ; et- Figure 11 shows the voice signal of Figure 8 processed in a larger sampling window; and
- la figure 12 montre un exemple de signal vocal échantillonné proche du son de l'occlusive " T " du mot " PETIT ", à l'entrée d'un élément du boîtier vocal illustré en regard de la figure 1.FIG. 12 shows an example of a sampled voice signal close to the sound of the stop "T" of the word "SMALL", at the input of an element of the voice box illustrated with reference to FIG. 1.
Le principe général de l'invention repose donc sur l'adaptation de la taille de la fenêtre d'échantillonnage d'un signal vocal.The general principle of the invention therefore rests on the adaptation of the size of the sampling window of a voice signal.
L'invention propose ainsi de remplacer un traitement basé sur une fenêtre de taille fixe, qui délivre des vecteurs acoustiques à intervalle régulier, selon une période fixe (dont la valeur est souvent proche de 10 ms) indépendamment de l'information codée par une extraction acoustique de vecteurs sur des fenêtres à taille variable et à intervalles non réguliers, d'autant plus espacés que la variation d'information contenue dans le signal est faible.The invention thus proposes to replace a processing based on a window of fixed size, which delivers acoustic vectors at regular intervals, according to a fixed period (whose value is often close to 10 ms) independently of the information coded by an extraction. vector acoustics on variable size windows and non regular intervals, all the more spaced as the variation of information contained in the signal is weak.
Ainsi, pour un signal relativement stationnaire pour lequel l'information contenue dans le signal est assez réduite (car, dans ce cas, il y a reproduction d'une même forme fondamentale), de grandes fenêtres seront utilisées. Inversement des fenêtres courtes seront utilisées pour les signaux non ou faiblement stationnaires.Thus, for a relatively stationary signal for which the information contained in the signal is quite reduced (because, in this case, there is reproduction of the same fundamental form), large windows will be used. Conversely, short windows will be used for non or weakly stationary signals.
Ainsi, le principe de l'invention est de fournir un vecteur acoustique non pas régulièrement dans le temps, indépendamment de l'information contenue dans le signal, mais de fournir un vecteur à chaque fois que l'information contenue dans le signal change suffisamment. Cela est plus conforme au principe des réseaux Markoviens utilisés en décodage.Thus, the principle of the invention is to provide an acoustic vector not regularly over time, independently of the information contained in the signal, but to provide a vector each time the information contained in the signal changes sufficiently. This is more in line with the principle of Markov networks used in decoding.
En effet, lorsqu'un signal vocal est reçu, il est échantillonné dans une fenêtre ayant une taille initiale permettant l'acquisition de NInit échantillons vocaux.Indeed, when a voice signal is received, it is sampled in a window having an initial size allowing the acquisition of NInit voice samples.
Une analyse de stationnante est effectuée. Cette analyse de stationnante est par exemple similaire à celle utilisée dans le codeur EPAC, qui est basé sur le principe d'analyse perceptuelle tel que décrit dans le document " The AT&T Perceptual Audio Coder (PAC) " (en français " le codeur audio perceptuel de la société AT&T ") écrit par J.D. Johnston et D. Sinha, présenté à la convention AES (à New York en octobre 1995). On peut également utiliser les procédés mis en œuvre dans les codeurs MPEG-1 couche 3 (MP3) et Dolby AC-3, et décrits notamment dans le document " The modulated lapped transform, its tile-varying form, and its applications to audio coding standards " (en fiançais, " la transformation avec chevauchement et modulée, sa forme variable, and ses applications aux normes de codage audio "), écrit par S. Shlien (IEEE Transaction on Speech Audio Processing, vol. 5, pp359-366, juillet 1997). Dans le cas du codage audio, une contrainte dite de " reconstruction parfaite " limite la taille des fenêtres utilisées, parce qu'il faut pouvoir reconstruire le signal codé, pour l'écoute. Dans le cas de l'invention, cette contrainte n'existe pas, et un procédé différent et plus adapté à la reconnaissance vocale est décrit plus loin en regard d'un mode de réalisation particulier. Selon l'invention, en combinant une analyse de stationnante avec un procédé de détermination et d'ajustage de fenêtre d'échantillonnage, un son voisé long utilisera une fenêtre longue tandis qu'un son voisé court utilisera une fenêtre d'analyse courte.A stationary analysis is performed. This stationary analysis is for example similar to that used in the EPAC coder, which is based on the principle of perceptual analysis as described in the document "The AT&T Perceptual Audio Coder (PAC)" (in French "le codeur audio perceptuel from AT&T ") written by JD Johnston and D. Sinha, presented at the AES convention (in New York in October 1995). We can also use the methods implemented in MPEG-1 layer 3 (MP3) and Dolby AC-3 coders, and described in particular in the document "The modulated lapped transform, its tile-varying form, and its applications to audio coding standards "(in French," overlapping and modulated transformation, its variable form, and its applications to audio coding standards "), written by S. Shlien (IEEE Transaction on Speech Audio Processing, vol. 5, pp359-366, July 1997). In the case of audio coding, a so-called "perfect reconstruction" constraint limits the size of the windows used, because it is necessary to be able to reconstruct the coded signal, for listening. In the case of the invention, this constraint does not exist, and a different and more suitable method for voice recognition is described below with regard to a particular embodiment. According to the invention, by combining a stationary analysis with a method for determining and adjusting the sampling window, a long voiced sound will use a long window while a short voiced sound will use a short analysis window.
Si le signal est stationnaire, la taille de la fenêtre est multipliée par un coefficient multiplicatif par exemple égal à 2. Si le signal n'est pas stationnaire, la taille de la fenêtre est divisée par un coefficient diviseur β par exemple égal à 2.If the signal is stationary, the size of the window is multiplied by a multiplicative coefficient for example equal to 2. If the signal is not stationary, the size of the window is divided by a divisor coefficient β for example equal to 2.
La taille de la fenêtre est ainsi agrandie ou diminuée une ou plusieurs fois : - jusqu'à ce que la taille de la fenêtre soit la plus grande taille de fenêtre pour laquelle le signal est stationnaire ; ouThe window size is thus enlarged or decreased one or more times: - until the window size is the largest window size for which the signal is stationary; or
- jusqu'à une taille minimale prenant en compte une valeur prédéterminée NMin d'échantillons sans qu'un signal statiom aire ne soit observé ;ou - jusqu'à une taille maximale prenant en compte une valeur prédéterminée- up to a minimum size taking into account a predetermined value NMin of samples without a statistical signal being observed; or - up to a maximum size taking into account a predetermined value
NMax d'échantillons alors qu'un signal stationnaire est toujours observé.NMax of samples while a stationary signal is still observed.
Ainsi, la modification de la longueur de la fenêtre est effectuée de manière dynamique ou adaptative.Thus, the modification of the length of the window is carried out dynamically or adaptively.
Plus généralement, d'autres règles de calcul de la taille sont bien sûr envisageables (valeurs différentes des coefficients multiplicatif et diviseur ; addition et soustraction d'unités de temps ; sélection parmi des tailles prédéterminées...).More generally, other rules for calculating the size can of course be envisaged (values different from the multiplicative and divisor coefficients; addition and subtraction of time units; selection from predetermined sizes ...).
Lorsque la taille de fenêtre est déterminée, les échantillons conespondant à cette taille de fenêtre sont traités et le processus est réitéré avec une fenêtre décalée d'un tiers par rapport à la fenêtre initiale et une taille initiale de fenêtre permettant F acquisition de NInit échantillons vocaux.When the window size is determined, the samples corresponding to this window size are processed and the process is repeated with a window shifted by a third compared to the initial window and an initial window size allowing the acquisition of NInit voice samples. .
Bien entendu, les différents valeurs, NInit, NMin, NMax, a, β sont paramétrables voire variables, de même que la valeur de décalage entre deux itérations du processus.Of course, the different values, NInit, NMin, NMax, a, β are configurable or even variable, as is the offset value between two iterations of the process.
On présente, en relation avec la figure 1, un synoptique général d'un système comprenant un boîtier à commande vocale 102 mettant en œuvre la technique de l'invention.There is presented, in relation to FIG. 1, a general block diagram of a system comprising a voice-controlled unit 102 implementing the technique of the invention.
On note que ce système comprend notamment :We note that this system notably includes:
- une source vocale 100 pouvant notamment être constituée d'un microphone destiné à capter un signal vocal produit par un locuteur ; - un boîtier de reconnaissance vocale 102 ;a voice source 100 which may in particular consist of a microphone intended to pick up a voice signal produced by a speaker; - a voice recognition unit 102;
- un boîtier de commande 105 destiné à piloter un appareil 107;- A control unit 105 intended to control an apparatus 107;
- un appareil commandé 107, par exemple de type téléviseur ou magnétoscope.a controlled device 107, for example of the television or video recorder type.
La source 100 est reliée au boîtier de reconnaissance vocale 102, via une liaison 101 qui lui permet de transmettre une onde source analogique représentative d'un signal vocal vers le boîtier 102.The source 100 is connected to the voice recognition unit 102, via a link 101 which allows it to transmit an analog source wave representative of a voice signal to the unit 102.
Le boîtier 102 peut récupérer des informations 104 de contexte (telles que par exemple, le type d'appareil 107 pouvant être contrôlé par le boîtier de commande 105 ou la liste des codes de commandes) via une liaison 104 et émettre vers le boîtier de commande 105 des commandes via une liaison 103.The unit 102 can retrieve context information 104 (such as for example, the type of device 107 that can be controlled by the control unit 105 or the list of command codes) via a link 104 and send to the control unit 105 of commands via a link 103.
Le boîtier de commande 105 émet des commandes via une liaison 106 par exemple infrarouge vers l'appareil 107. Selon le mode de réalisation considéré, la source 100, le boîtier de reconnaissance vocale 102 et le boîtier de commande 105 font partie d'un même dispositif et ainsi les liaisons 101, 103 et 104 sont des liaisons internes au dispositif. Par contre, la liaison 106 est typiquement une liaison sans fil. Selon une première variante de réalisation de l'invention décrite à la figureThe control unit 105 sends commands via a link 106, for example infrared, to the device 107. According to the embodiment considered, the source 100, the voice recognition unit 102 and the control unit 105 are part of the same device and thus the links 101, 103 and 104 are internal links to the device. On the other hand, the link 106 is typically a wireless link. According to a first alternative embodiment of the invention described in the figure
1, les éléments 100, 102 et 105 sont en partie ou complètement séparés et ne font pas partie d'un même dispositif. Dans ce cas, les liaisons 101, 103 et 104 sont des liaisons externes filaires ou non.1, the elements 100, 102 and 105 are partly or completely separate and are not part of the same device. In this case, the links 101, 103 and 104 are external connections, wired or not.
Selon une deuxième variante, la source 100, les boîtiers 102 et 105 ainsi que l'appareil 107 font partie d'un même dispositif et sont reliés entre eux par des bus internes (liaisons 101, 103, 104 et 106). Cette variante est particulièrement intéressante quand le dispositif est, par exemple, un téléphone ou terminal de télécommunication portable.According to a second variant, the source 100, the boxes 102 and 105 and the device 107 are part of the same device and are connected to each other by internal buses (links 101, 103, 104 and 106). This variant is particularly advantageous when the device is, for example, a telephone or portable telecommunication terminal.
La figure 2 présente un synoptique d'un boîtier à commande vocale tel le boîtier 102 illustré en regard de la figure 2.FIG. 2 shows a block diagram of a voice-controlled unit such as the unit 102 illustrated with reference to FIG. 2.
On note que le boîtier 102 reçoit de l'extérieur l'onde source analogique 101 qui est traitée par un Décodeur Acoustico-Phonétique 200 ou DAP (appelé " front-end " en anglais). Le DAP 200 échantillonne à intervalles réguliers (typiquement toutes les 10ms) l'onde source 101 pour produire des vecteurs réels ou appartenant à des livres de code (ou " code books " en anglais), représentant typiquement des résonances buccales qui sont émises via une liaison 201 vers un moteur de reconnaissance 203.It is noted that the box 102 receives from the outside the analog source wave 101 which is processed by an Acoustic-Phonetic Decoder 200 or DAP (called "front-end" in English). The DAP 200 samples at regular intervals (typically every 10 ms) the source wave 101 to produce real vectors or those belonging to code books (or "code books" in English), typically representing oral resonances which are emitted via a link 201 to a recognition engine 203.
A l'aide d'un dictionnaire 202, le moteur de reconnaissance 203 analyse les vecteurs réels qu'il reçoit en utilisant notamment des modèles de Markov cachés ou HMM (de l'anglais Hidden Markov Models) et des modèles de langage (qui représentent la probabilité pour qu'un mot suive un autre mot). Des moteurs de reconnaissance sont notamment décrits en détail dans le livre " Statistical Methods for Speech Récognition " écrit par Frederick Jelinek, et paru aux éditions MIT Press en 1997.With the aid of a dictionary 202, the recognition engine 203 analyzes the real vectors which it receives using in particular hidden Markov models or HMM (from the English Hidden Markov Models) and language models (which represent the probability that a word will follow another word). Recognition engines are notably described in detail in the book "Statistical Methods for Speech Recognition" written by Frederick Jelinek, and published by MIT Press in 1997.
Le moteur de reconnaissance 203 fournit des mots qu'il a identifiés à partir des vecteurs reçus à un moyen de traduction de ces mots en commandes pouvant être comprises par l'appareil 107. Ce moyen utilise un procédé de traduction à intelligence artificielle qui lui-même prend en compte un contexte 104 fourni par le boîtier de commande 105 avant d'émettre une ou plusieurs commandes 103 vers le boîtier de commande 105. La figure 3 illustre schématiquement un module ou dispositif de reconnaissance vocale 102 tel qu'illustré en regard de la figure 1, et mettant en œuvre le synoptique de la figure 2. Le boîtier 102 comprend reliés entre eux par un bus d'adresses et de données :The recognition engine 203 supplies words which it has identified from the vectors received to a means for translating these words into commands which can be understood by the apparatus 107. This means uses an artificial intelligence translation method which itself even takes into account a context 104 provided by the control unit 105 before issuing one or more commands 103 to the control unit 105. FIG. 3 schematically illustrates a voice recognition module or device 102 as illustrated with reference to Figure 1, and implementing the block diagram of Figure 2. The housing 102 comprises interconnected by an address and data bus:
- une interface vocale 301 ;- a voice interface 301;
- un convertisseur Analogique-Numérique 302 - un processeur 304 ;- an Analog to Digital converter 302 - a processor 304;
- une mémoire non volatile 305 ;- a non-volatile memory 305;
- une mémoire vive 306 ; et- a random access memory 306; and
- une interface 307 de commande d'un appareil.- An interface 307 for controlling a device.
Chacun des éléments illustrés en figure 3 est bien connu de l'homme du métier. Ces éléments communs ne sont pas décrits ici.Each of the elements illustrated in Figure 3 is well known to those skilled in the art. These common elements are not described here.
On observe en outre que le mot " registre " utilisé dans toute la description désigne dans chacune des mémoires mentionnées, aussi bien une zone de mémoire de faible capacité (quelques données binaires) qu'une zone mémoire de grande capacitéIt is further observed that the word "register" used throughout the description designates in each of the memories mentioned, both a low-capacity memory area (some binary data) and a high-capacity memory area
(permettant de stocker un programme entier ou l'intégralité d'une séquence de données de transactions).(used to store an entire program or an entire sequence of transaction data).
La mémoire non volatile 305 (ou ROM) conserve dans des registres qui par commodité possèdent les mêmes noms que les domiées qu'ils conservent :Non-volatile memory 305 (or ROM) stores in registers which, for convenience, have the same names as the domiés they keep:
- le programme de fonctionnement du processeur 304 dans un registre "prog " 308 ; - un dictionnaire de mots devant être compris par le moteur de reconnaissance dans un registre 309;- the operating program of processor 304 in a "prog" register 308; - a dictionary of words to be understood by the recognition engine in a register 309;
- une valeur NInit (valant par exemple 512), représentant une valeur initiale de taille de fenêtre dans un registre 310 ;a value NInit (worth for example 512), representing an initial value of window size in a register 310;
- une valeur NMin (valant par exemple 64), représentant une valeur minimale de taille de fenêtre dans un registre 311 ; et- an NMin value (worth for example 64), representing a minimum value of window size in a register 311; and
- une valeur NMax (valant par exemple 2048), représentant une valeur maximale de taille de fenêtre dans un registre 312.an NMax value (worth for example 2048), representing a maximum value of window size in a register 312.
La mémoire vive 306 conserve des données, des variables et des résultats intermédiaires de traitement et comprend notamment : - un registre 313 dans lequel sont conservées des valeurs de bo, et e représentatives de l'excitation glottale du signal reçu ;The random access memory 306 stores data, variables and intermediate processing results and comprises in particular: - a register 313 in which values of bo, and e representative of the glottal excitation of the received signal are stored;
- un vecteur ai, a, ... ap représentant un résonateur dans un registre 314 ;- a vector ai, a , ... ap representing a resonator in a register 314;
- un vecteur sj, $2, .- SN représentant un signal vocal dans un registre 315 ; et- a vector sj, $ 2 , .- S N representing a voice signal in a register 315; and
- une valeur N de taille de fenêtre courante dans un registre 316 ; et - une valeur booléenne Stationnaire pouvant prendre les valeurs- a value N of current window size in a register 316; and - a Boolean Stationary value which can take the values
" Stationnaire " ou " Non Stationnaire " dans un registre 317. La figure 4 représente un signal vocal échantillonné conformément à l'état de l'art."Stationary" or "Non Stationary" in a register 317. FIG. 4 represents a voice signal sampled in accordance with the state of the art.
Le signal vocal 400 est représenté suivant deux axes :The voice signal 400 is represented along two axes:
- un axe des abscisses 402 symbolisant le temps t ; et - un axe des ordonnées 401 représentant une intensité.- an abscissa axis 402 symbolizing time t; and - a vertical axis 401 representing an intensity.
Selon l'état de l'art, le signal 400 est échantillonné à intervalle régulier dans une fenêtre 403 de durée fixe L et contenant un nombre fixe d'échantillons, égal à N.According to the state of the art, the signal 400 is sampled at regular intervals in a window 403 of fixed duration L and containing a fixed number of samples, equal to N.
Après traitement des N échantillons, la fenêtre d'échantillonnage est décalée d'un temps t égal à J/3. On obtient ainsi une deuxième fenêtre 404 puis une troisième fenêtre 405 de même longueur L que la fenêtre 403.After processing the N samples, the sampling window is shifted by a time t equal to J / 3. A second window 404 is thus obtained, then a third window 405 of the same length L as the window 403.
La figure 5 représente un signal vocal échantillonné selon un mode particulier de réalisation de l'invention tel qu'il est mis en œuvre dans le boîtier illustré en regard des figures 2 et 3.FIG. 5 represents a voice signal sampled according to a particular embodiment of the invention as it is implemented in the box illustrated with reference to FIGS. 2 and 3.
Sur cette figure, le signal vocal 400 est représenté de la même manière que sur la figure 4.In this figure, the voice signal 400 is represented in the same way as in FIG. 4.
Selon l'invention, le signal 400 est échantillonné à intervalle régulier dans une fenêtre 500 de durée initiale L et contenant un nombre d'échantillons, égal à N.According to the invention, the signal 400 is sampled at regular intervals in a window 500 of initial duration L and containing a number of samples, equal to N.
Après un premier traitement des N échantillons, selon l'algorithme décrit ultérieurement en regard de la figure 7, la taille de la fenêtre d'échantillonnage peut être :After a first processing of the N samples, according to the algorithm described later with reference to FIG. 7, the size of the sampling window can be:
- soit divisée par 2 pour obtenir une fenêtre 501 d'échantillonnage de durée LU et contenant N/2 échantillons ;- either divided by 2 to obtain a window 501 of sampling duration LU and containing N / 2 samples;
- soit multipliée par 2 pour obtenir une fenêtre 502 d'échantillonnage de durée 2Z et contenant 2N échantillons. La figure 6 illustre plus particulièrement le décalage entre deux fenêtrages successifs tels qu'ils sont mis en œuvre dans le boîtier illustré en regard des figures 2 et 3.- or multiplied by 2 to obtain a sampling window 502 of duration 2Z and containing 2N samples. FIG. 6 more particularly illustrates the offset between two successive windows as they are implemented in the housing illustrated with reference to FIGS. 2 and 3.
Sur cette figure, le signal vocal 400 est représenté de la même manière que sur la figure 5. Selon l'invention, le signal 400 est échantillonné à intervalle régulier dans une fenêtre 501 par exemple de durée finale L/2 et contenant un nombre d'échantillons égal à N/2 (cette valeur ayant été obtenue par exécution de l'algorithme illustré en regard de la figure 7).In this figure, the voice signal 400 is represented in the same way as in FIG. 5. According to the invention, the signal 400 is sampled at regular intervals in a window 501 for example of final duration L / 2 and containing a number d 'samples equal to N / 2 (this value having been obtained by execution of the algorithm illustrated with reference to FIG. 7).
Après traitement des N/2 échantillons de la fenêtre d'échantillonnage 501, un nouveau fenêtrage est déterminé à partir d'une première fenêtre 600 :After processing the N / 2 samples of the sampling window 501, a new windowing is determined from a first window 600:
- décalée de la durée de la fenêtre 501 (déterminée au cours de l'opération de fenêtrage précédente) divisée par 3 soit J/2/3 ou L/6 ; - et ayant une durée initiale égale à L et prenant en compte N échantillons.- shifted by the duration of window 501 (determined during the previous windowing operation) divided by 3, either D / 2/3 or L / 6; - and having an initial duration equal to L and taking into account N samples.
Le décalage d'une fenêtre par rapport à la précédence est fonction de la longueur de cette fenêtre précédente et avantageusement égale à une fraction de cette longueur. La figure 7 représente un organigramme de traitement des données vocales tel que mis en œuvre par le boîtier de reconnaissance vocale des figures 2 et 3.The offset of a window with respect to the precedence is a function of the length of this previous window and advantageously equal to a fraction of this length. FIG. 7 represents a flow diagram for processing the voice data as implemented by the voice recognition unit of FIGS. 2 and 3.
Après une étape 700 d'initialisation, le boîtier 102 lance le programme Prog 308 et initialise les différentes variables (notamment la valeur de tO, instant initial correspondant au début d'une première fenêtre contenant des échantillons). Puis, au cours d'une étape 701, le boîtier 102 effectue un échantillonnage à une fréquence de 22050 Hz et une conversion analogique/numérique du signal vocal 400 qu'il reçoit.After an initialization step 700, the unit 102 launches the program Prog 308 and initializes the various variables (in particular the value of t0, initial instant corresponding to the start of a first window containing samples). Then, during a step 701, the unit 102 performs sampling at a frequency of 22050 Hz and an analog / digital conversion of the voice signal 400 which it receives.
Après avoir échantillonné suffisamment d'échantillons (par exemple un nombre supérieur ou égal à la valeur NMax 312 stocké en mémoire 305) au cours d'une étape 702, le boîtier 102 initialise la taille de la fenêtre, N, à une valeur prédéterminéeAfter having sampled enough samples (for example a number greater than or equal to the value NMax 312 stored in memory 305) during a step 702, the box 102 initializes the size of the window, N, to a predetermined value
NInit 310 égale par exemple à 512. Cette valeur prédéterminée est une valeur moyenne de N comprise entre NMin 311 et NMax 312.NInit 310 for example equal to 512. This predetermined value is an average value of N between NMin 311 and NMax 312.
Selon une première variante de réalisation, la valeur de NInit est égale à NMin, la valeur de Nne peut alors que croître. En effet, en attaque de phrase ou de mot, on est très souvent dans une zone non stationnaire du signal vocal.According to a first alternative embodiment, the value of NInit is equal to NMin, the value of Nne can then only increase. Indeed, in attack of sentence or word, one is very often in a non stationary zone of the vocal signal.
Selon une deuxième variante de réalisation, la valeur de NInit est égale à NMαx, la valeur de Nne peut alors que diminuer.According to a second alternative embodiment, the value of NInit is equal to NMαx, the value of Nne can then decrease.
Ensuite, au cours d'une étape 703, le boîtier 102 effectue un fenêtrage correspondant à une fenêtre de taille courante N et démarrant au temps tO. Puis, au cours d'une étape 704, le boîtier 102 effectue une conversion psycho-acoustique et une analyse perceptive.Then, during a step 703, the housing 102 performs windowing corresponding to a window of current size N and starting at time t0. Then, during a step 704, the housing 102 performs a psycho-acoustic conversion and a perceptual analysis.
Ensuite, au cours d'un test 705, le boîtier 102 détermine si dans la fenêtre d'analyse de taille courante N, le signal est stationnaire.Then, during a test 705, the housing 102 determines whether in the analysis window of current size N, the signal is stationary.
Dans l'affirmative, au cours d'un test 706, le boîtier 102 détermine si la valeur de N a atteint une limite maximale ou en d'autres termes si la valeur de N multipliée par 2 est supérieure strictement à la valeur de NMαx 312 stockée en mémoire.If so, during a test 706, the housing 102 determines whether the value of N has reached a maximum limit or in other words if the value of N multiplied by 2 is strictly greater than the value of NMαx 312 stored in memory.
Si le résultat du test 706 est négatif, la valeur de N n'a pas atteint la limite supérieure égale à NMαx et on assigne à N une nouvelle valeur égale à 2 fois N. En d'autres termes, le contenu du registre N 316 est multiplié par 2. Ensuite, au cours d'une étape 708, le boîtier 102 effectue un fenêtrage conespondant à une fenêtre de la dernière taille courante N et démarrant à un instant tO qui est le même que l'instant de démarrage de la fenêtre définie par la dernière étape de fenêtrage 703.If the result of test 706 is negative, the value of N has not reached the upper limit equal to NMαx and we assign to N a new value equal to 2 times N. In other words, the content of the register N 316 is multiplied by 2. Then, during a step 708, the box 102 performs windowing corresponding to a window of the last current size N and starting at an instant t0 which is the same as the window start time defined by the last windowing step 703.
Puis, le boîtier 102 effectue une étape 709 de conversion psycho-acoustique et d'analyse perceptive en prenant en compte les échantillons de la fenêtre courante, l'étape 709 étant tout à fait similaire à l'étape 704 préalablement décrite.Then, the housing 102 performs a step 709 of psycho-acoustic conversion and perceptual analysis taking into account the samples of the current window, step 709 being quite similar to step 704 previously described.
Ensuite au cours d'un test 710 de stationnante similaire au test 705, le boîtier détermine si dans la fenêtre d'analyse de taille courante N, le signal est stationnaire.Then during a stationary test 710 similar to test 705, the box determines whether in the analysis window of current size N, the signal is stationary.
Si le résultat du test 710 est positif, le test 706 est réitéré. Si le résultat du test 710 est négatif, on revient à la taille de fenêtre précédente, c'est-à-dire à N/2 qui est la taille de fenêtre la plus grande qui a conduit à un signal stationnaire à l'intérieur de la fenêtre. Ainsi, on assigne à N la valeur N divisée par 2.If the result of test 710 is positive, test 706 is repeated. If the result of test 710 is negative, we return to the previous window size, that is to say N / 2 which is the largest window size which led to a stationary signal within the window. Thus, we assign to N the value N divided by 2.
Si le résultat du test 705 est négatif, au cours d'un test 712, le boîtier 102 détermine si la valeur de N a atteint une limite minimale ou en d'autres termes si la valeur de N divisée par 2 est supérieure strictement à la valeur de NMin 311 stockée en mémoire.If the result of test 705 is negative, during a test 712, the housing 102 determines whether the value of N has reached a minimum limit or in other words if the value of N divided by 2 is strictly greater than the NMin 311 value stored in memory.
Si le résultat du test 712 est négatif, la valeur de N n'a pas atteint la limite inférieure égale à NMinx et on assigne à Nune nouvelle valeur égale à N/2. En d'autres termes, le contenu du registre N 316 est divisé par 2.If the result of test 712 is negative, the value of N has not reached the lower limit equal to NMinx and a new value assigned to N / 2 is assigned to Nune. In other words, the content of register N 316 is divided by 2.
Ensuite, au cours d'une étape 714, le boîtier 102 effectue un fenêtrage conespondant à une fenêtre de la dernière taille courante N et démarrant à un temps tO qui est le même que l'instant de démarrage de la fenêtre définie par la dernière étape de fenêtrage 703. Puis, le boîtier 102 effectue une étape 715 de conversion psycho-acoustique et d'analyse perceptive en prenant en compte les échantillons de la fenêtre courante, l'étape 715 étant tout à fait similaire à l'étape 704 préalablement décrite.Then, during a step 714, the housing 102 performs windowing corresponding to a window of the last current size N and starting at a time t0 which is the same as the start time of the window defined by the last step fenestration 703. Then, the housing 102 performs a step 715 of psycho-acoustic conversion and perceptual analysis taking into account the samples of the current window, step 715 being quite similar to step 704 previously described .
Ensuite au cours d'un test 716 de statiormarité similaire au test 705, le boîtier détermine si dans la fenêtre d'analyse de taille courante N, le signal est stationnaire.Then during a test 716 of statiormarity similar to test 705, the box determines if in the current size analysis window N, the signal is stationary.
Si le résultat du test 716 est négatif, le signal n'est pas stationnaire dans la fenêtre courante et le test 706 est réitéré.If the result of test 716 is negative, the signal is not stationary in the current window and test 706 is repeated.
Une étape 717 est effectuée dans l'un des cas suivants : après un étape 711 ; - après un résultat positif au test 706 d'atteinte d'une valeur maximale deA step 717 is carried out in one of the following cases: after a step 711; - after a positive result in test 706 of reaching a maximum value of
N; après un résultat positif au test 712 d'atteinte d'une valeur minimale deNOT; after a positive result in test 712 reaching a minimum value of
N; ou après un résultat positif au test 716 de statiormarité effectué après une ou plusieurs diminutions de la valeur de N. Au cours de cette étape 717, le boîtier 102 effectue un calcul des coefficients acoustiques, les délivre au moteur de reconnaissance 203 puis effectue un décalage de la valeur de l'instant tO qui devient égal à tO auquel on ajoute une durée égale au tiers de la taille de la fenêtre courante (ou en d'autres termes à une durée égale à la durée de réception de N/3 échantillons). Les échantillons reçus avant le nouvel instant tO ne sont plus utiles et peuvent alors être écartés.NOT; or after a positive result in the test 716 for statiormarity carried out after one or more decreases in the value of N. During this step 717, the housing 102 performs a calculation of the acoustic coefficients, delivers them to the recognition engine 203 and then performs an offset of the value of the instant tO which becomes equal to tO to which a duration equal to one third of the size of the current window is added (or in other words to a duration equal to the duration of reception of N / 3 samples) . The samples received before the new time t0 are no longer useful and can then be discarded.
Ensuite l'étape 702 d'initialisation de taille de fenêtre est réitérée. Les étapes de conversion psycho-acoustique, d'analyse perceptive et de test de statiormarité vont maintenant être détaillées avec mention des exemples de signaux illustrés en regard des figures 8 à 12. La figure 8 montre l'exemple d'un signal 800 proche du son de la voyelleThen the window size initialization step 702 is repeated. The steps of psycho-acoustic conversion, perceptual analysis and test of statiormarity will now be detailed with mention of the examples of signals illustrated with reference to FIGS. 8 to 12. FIG. 8 shows the example of a signal 800 close to the vowel sound
" I ", prononcé par un homme d'une trentaine d'années, sur une fenêtre de la taille souhaitée (512 au départ), le temps étant représenté sur l'axe des abscisses 801 au rythme de F échantillonnage soit 22050 valeurs par seconde et une pression étant représentée sur l'axe des ordonnées 802 selon une échelle arbitraire. Une première étape consiste à filtrer le signal 800 par un filtre passe-bas, pour supprimer les détails inutiles de Fonde sonore."I", pronounced by a man in his thirties, on a window of the desired size (512 at the start), time being represented on the abscissa axis 801 at the rate of sampling F, ie 22050 values per second and a pressure being represented on the ordinate axis 802 according to an arbitrary scale. A first step consists in filtering the signal 800 by a low-pass filter, to remove unnecessary details from the sound wave.
On utilise pour cela, par exemple, le filtre suivant (où Y est le signal filtré et S, le signal original) :We use for this, for example, the following filter (where Y is the filtered signal and S, the original signal):
Yn = l/7(Sn+3 + Sn+2 + Sn+1 + Sn + Sn-1 + Sn-2 + Sn-θ) La figure 9 montre le résultat (signal filtré 900) pour la même fenêtre temporelle que la figure 8.Y n = l / 7 (S n + 3 + Sn + 2 + Sn + 1 + Sn + Sn-1 + Sn-2 + Sn-θ) Figure 9 shows the result (filtered signal 900) for the same time window than Figure 8.
On cherche alors, par un algorithme classique, les passages du signal par zéro en front montant, et les passages par zéro en front descendant. La figure 9 illustre : - les points 906, 908, 911, 913 et 915 obtenus en front montant ; etWe then seek, by a conventional algorithm, the signal crossings by zero on the rising edge, and the zero crossings on the falling edge. Figure 9 illustrates: - points 906, 908, 911, 913 and 915 obtained on the rising edge; and
- les points 907, 910, 912, 914 et 916 obtenus en front descendant.- points 907, 910, 912, 914 and 916 obtained on the falling edge.
On cherche également, entre deux passages par zéro, les extremums du signal :We are also looking for, between two zero crossings, the signal extremes:
- maxima 917, 920, 918, 921 et 919 ; et - minima 922, 923, 924 et 925.- maxima 917, 920, 918, 921 and 919; and - minimum 922, 923, 924 and 925.
On effectue alors un seuillage, c'est-à-dire qu'on élimine les points de fronts montants dont la valeur maximale suivante associée est inférieure à un seuil S, calculée comme une fraction de la valeur maximale M (niveau du point 919 selon l'exemple) sur la fenêtre. Cette fraction peut typiquement prendre une valeur égale à 0,3. On fait la même chose pour les fronts descendants.A thresholding is then carried out, that is to say that the rising edge points whose associated next maximum value is less than a threshold S, calculated, are eliminated. as a fraction of the maximum value M (level of point 919 according to the example) on the window. This fraction can typically take a value equal to 0.3. We do the same for the falling fronts.
Selon l'exemple, les points 908 et 913 (conespondant à des fronts montants ayant pour maximum respectivement les points 920 et 921) sont éliminés alors qu'aucun point correspondant à un front descendant ne l'est.According to the example, points 908 and 913 (corresponding to rising edges having maximum points 920 and 921 respectively) are eliminated while no point corresponding to a falling edge is.
On cherche ensuite, quelle liste (liste des fronts montants ou liste des fronts descendants) contient le moins de candidats. Selon l'exemple, il s'agit de la liste des fronts montants qui contient les trois points résiduels 906, 911 et 915. On calcule alors Faire formée par le signal entre deux valeurs consécutives d'abscisse des fronts montants. A titre illustratif, pour les valeurs correspondant aux points 906 et 911, il s'agit de Faire hachurée 1001 de la figure 10.We then look for which list (list of rising edges or list of falling edges) contains the least number of candidates. According to the example, this is the list of rising edges which contains the three residual points 906, 911 and 915. We then calculate Faire formed by the signal between two consecutive values of abscissa of the rising edges. By way of illustration, for the values corresponding to points 906 and 911, it is to Make hatched 1001 in FIG. 10.
Puis, on calcule la différence de cette aire initiale 1001 avec Faire du signal décalé de la différence 1000 des deux abscisses 906 et 911. Si cette différence est inférieure à une fraction de Faire initiale (typiquement 15% de sa valeur), alors le signal initial compris entre les points 906 et 911 est un candidat possible pour le motif stationnaire que reproduit Fonde sonore. Dans le cas illustré, il y a effectivement possibilité de son voisé.Then, we calculate the difference of this initial area 1001 with Faire of the signal shifted by the difference 1000 of the two abscissas 906 and 911. If this difference is less than a fraction of initial Faire (typically 15% of its value), then the signal initial between points 906 and 911 is a possible candidate for the stationary pattern reproduced by the sound wave. In the illustrated case, there is indeed the possibility of its neighbor.
On peut décider à ce stade que le signal est voisé, et multiplier la taille de la fenêtre par deux. On cherche alors si Fonde sur toute la nouvelle fenêtre est bien représentée par la translatée, comme précédemment, de la forme de base obtenue.We can decide at this stage that the signal is voiced, and multiply the size of the window by two. We then look to see if Fonde on the whole new window is well represented by the translate, as before, of the basic shape obtained.
La fenêtre à 1024 valeurs est représentée en figure 11, pour le signal 1100 avant filtrage. L'algorithme décrit ci-dessus détermine que le signal est toujours stationnaire sur cette fenêtre. L'algorithme se poursuit jusqu'à ce que la taille maximale permise NMax soit atteinte, typiquement 2048 valeurs, ou qu'une non stationnante soit rencontrée.The window with 1024 values is represented in FIG. 11, for the signal 1100 before filtering. The algorithm described above determines that the signal is always stationary on this window. The algorithm continues until the maximum allowable size NMax is reached, typically 2048 values, or a non-stationary one is encountered.
Selon une variante, on peut effectuer une analyse de Fourier sur la forme source du signal complétée de quelques translatées (4 typiquement) et faire une analyse psycho-acoustique pour déterminer, si le contenu spectral obtenu serait jugé différent par un auditeur du contenu spectral obtenu sur la forme de base suivante. On peut utiliser le principe d'analyse détaillé dans le document " perceptual coding of digital audio " (en français " codage perceptuel d' audio numérique "), écrit par Ted Painter, dans le magazine Proceedings of the IEEE, paru en Avril 2000 (pages 451 à 513).According to a variant, one can carry out a Fourier analysis on the source form of the signal supplemented with a few translates (4 typically) and make a psycho-acoustic analysis to determine, if the spectral content obtained would be judged different by a listener from the spectral content obtained on the following basic form. We can use the principle of analysis detailed in the document "perceptual coding of digital audio" (in French "perceptual coding of digital audio"), written by Ted Painter, in the magazine Proceedings of the IEEE, published in April 2000 ( pages 451 to 513).
La figure 12 illustre le signal 1200 sur une fenêtre de 512 valeurs du son non stationnaire de l'occlusive " T " dans le mot " PETIT ". L'algorithme conclut à la non-statiormarité du signal et donc la fenêtre n'est pas agrandie, mais une nouvelle fenêtre de même taille décalée, par exemple, de 256 valeurs est générée pour recommencer une nouvelle analyse.FIG. 12 illustrates the signal 1200 on a window of 512 values of the non-stationary sound of the stopper "T" in the word "SMALL". The algorithm concludes that the signal is not statiormarried and therefore the window is not enlarged, but a new one window of the same size shifted, for example, by 256 values is generated to start a new analysis.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation mentionnés ci-dessus. En particulier, l'homme du métier pouna apporter toute variante :Of course, the invention is not limited to the exemplary embodiments mentioned above. In particular, the person skilled in the art can make any variant:
- dans la définition d'une taille de fenêtre initiale (NInit qui peut être fixe ou varier d'une opération de fenêtrage à l'autre) ;- in the definition of an initial window size (NInit which can be fixed or vary from one windowing operation to another);
- dans la définition des variations de taille de fenêtre (par exemple qui peuvent être importantes au début d'une étape de détermination de taille de fenêtre et plus fines à la fin) ;- in the definition of window size variations (for example which may be significant at the start of a window size determination step and more fine at the end);
- dans la mise en œuvre de l'étape de détermination de la taille de fenêtre (qui peut être basée par exemple sur une augmentation et/ou diminution régulière des tailles de fenêtre ou sur une dichotomie entre deux valeurs de taille de fenêtre) ; et/ou- in the implementation of the window size determination step (which can be based for example on a regular increase and / or decrease in window sizes or on a dichotomy between two window size values); and or
- dans la mise en œuvre de l'étape de décalage entre deux fenêtres successives produisant des vecteurs acoustiques pris en compte par un moteur de reconnaissance vocale.- in the implementation of the step of shifting between two successive windows producing acoustic vectors taken into account by a voice recognition engine.
On note que le moteur de reconnaissance vocale s'étend à tout type de moteur utilisant des vecteurs acoustiques produits par un décodeur acoustico-phonétique à fenêtre de taille variable selon l'invention. On notera que l'invention ne se limite pas à une implantation purement matérielle mais qu'elle peut aussi être mise en œuvre sous la forme d'une séquence d'instructions d'un programme informatique ou toute forme mixant une partie matérielle et une partie logicielle. Dans le cas où l'invention est implantée partiellement ou totalement sous forme logicielle, la séquence d'instructions correspondante pourra être stockée dans un moyen de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce moyen de stockage étant lisible partiellement ou totalement par un ordinateur ou un microprocesseur. It should be noted that the voice recognition engine extends to any type of engine using acoustic vectors produced by an acoustico-phonetic decoder with a window of variable size according to the invention. It will be noted that the invention is not limited to a purely material installation but that it can also be implemented in the form of a sequence of instructions of a computer program or any form mixing a material part and a part software. In the case where the invention is implemented partially or completely in software form, the corresponding sequence of instructions may be stored in a removable storage means (such as for example a floppy disk, a CD-ROM or a DVD-ROM) or no, this storage means being partially or totally readable by a computer or a microprocessor.

Claims

REVENDICATIONS
1. Procédé de reconnaissance vocale comprenant une étape d'échantillonnage dans laquelle on échantillonne un signal vocal (400) dans une fenêtre temporelle (501), caractérisé en ce qu'il comprend une étape de modification (707, 713) de la longueur de ladite fenêtre temporelle, en fonction d'au moins un critère prédéterminé.1. A voice recognition method comprising a sampling step in which a voice signal (400) is sampled in a time window (501), characterized in that it comprises a step of modification (707, 713) of the length of said time window, as a function of at least one predetermined criterion.
2. Procédé de reconnaissance vocale selon la revendication 1, caractérisé en ce que l'un desdits critères prédéterminés est une information représentative de la statiormarité dudit signal vocal (400), ladite longueur de ladite fenêtre temporelle étant d'autant plus grande que ledit signal vocal est statiom aire.2. A voice recognition method according to claim 1, characterized in that one of said predetermined criteria is information representative of the statiormarity of said voice signal (400), said length of said time window being all the greater as said signal vocal is statiom area.
3. Procédé de reconnaissance vocale selon la revendication 2, caractérisé en ce que ladite information représentative de la statiormarité dudit signal vocal est obtenue lors d'une étape d'analyse (709, 715) dudit signal tenant compte d'un modèle psychoacoustique.3. A voice recognition method according to claim 2, characterized in that said information representative of the statiormarity of said voice signal is obtained during a step of analysis (709, 715) of said signal taking into account a psychoacoustic model.
4. Procédé de reconnaissance vocale selon l'une des revendications 1 à 3, caractérisé en ce que ladite étape d'analyse (709, 715) de la stationnante dudit signal vocal comprend une analyse de formants dans ledit signal vocal, permettant la détection de sons voisés. 4. Voice recognition method according to one of claims 1 to 3, characterized in that said analysis step (709, 715) of the stationary of said voice signal comprises an analysis of formants in said voice signal, allowing the detection of voiced sounds.
5. Procédé de reconnaissance vocale selon la revendication A, caractérisé en ce qu'un desdits critères prédéterminés est une information représentative de la présence d'un son voisé, la longueur de ladite fenêtre temporelle étant d'autant plus grande qu'un son voisé a été détecté dans ledit signal vocal.5. A voice recognition method according to claim A, characterized in that one of said predetermined criteria is information representative of the presence of a voiced sound, the length of said time window being all the greater as a voiced sound was detected in said voice signal.
6. Dispositif (102) de reconnaissance vocale comprenant un échantillonneur échantillonnant un signal vocal (400) dans une fenêtre temporelle (501), caractérisé en ce qu'il comprend un moyen de modification de la longueur de ladite fenêtre temporelle, en fonction d'au moins un critère prédéterminé.6. Device (102) for voice recognition comprising a sampler sampling a voice signal (400) in a time window (501), characterized in that it comprises means for modifying the length of said time window, as a function of at least one predetermined criterion.
7. Produit programme d'ordinateur de reconnaissance vocale comprenant des éléments de programme, enregistrés sur un support lisible par au moins un microprocesseur, caractérisé en ce que lesdits éléments de programme contrôlent le ou lesdits microprocesseurs pour qu'il effectue :7. Voice recognition computer program product comprising program elements, recorded on a medium readable by at least one microprocessor, characterized in that said program elements control the said microprocessor (s) so that it performs:
- une étape d'échantillonnage dans laquelle on échantillonne un signal vocal dans une fenêtre temporelle ; et- a sampling step in which a voice signal is sampled in a time window; and
- une étape de modification de la longueur de ladite fenêtre temporelle en fonction d'au moins un critère prédéterminé.a step of modifying the length of said time window as a function of at least one predetermined criterion.
8. Produit programme d'ordinateur caractérisé en ce que ledit programme comprend des séquences d'instructions adaptées à la mise en œuvre d'un procédé de reconnaissance vocale selon l'une quelconque des revendications 1 à 5 lorsque ledit programme est exécuté sur un ordinateur. 8. Product computer program characterized in that said program comprises sequences of instructions adapted to the implementation of a method of voice recognition according to any one of claims 1 to 5 when said program is executed on a computer.
PCT/FR2001/001218 2000-05-23 2001-04-20 Adaptive analysis windows for speech recognition WO2001091106A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2001254892A AU2001254892A1 (en) 2000-05-23 2001-04-20 Adaptive analysis windows for speech recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR00/06575 2000-05-23
FR0006575 2000-05-23

Publications (1)

Publication Number Publication Date
WO2001091106A1 true WO2001091106A1 (en) 2001-11-29

Family

ID=8850519

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2001/001218 WO2001091106A1 (en) 2000-05-23 2001-04-20 Adaptive analysis windows for speech recognition

Country Status (2)

Country Link
AU (1) AU2001254892A1 (en)
WO (1) WO2001091106A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2284732A (en) * 1993-11-22 1995-06-14 British Tech Group Spectral analysis of speech signals
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2284732A (en) * 1993-11-22 1995-06-14 British Tech Group Spectral analysis of speech signals
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARKOVIC M Z: "A robust nonrecursive identification of nonstationary AR speech model based on quadratic classifier", ICT '98. INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS. BRIDGING EAST AND WEST THROUGH TELECOMMUNICATIONS, PROCEEDINGS OF ICT'98 - INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS, CHALKIDIKI, GREECE, 21-25 JUNE 1998, 1998, Thessaloniki, Greece, Aristotle Univ. Thessaloniki, Greece, pages 228 - 232 vol.1, XP001011446 *

Also Published As

Publication number Publication date
AU2001254892A1 (en) 2001-12-03

Similar Documents

Publication Publication Date Title
EP1362343B1 (en) Method, module, device and server for voice recognition
EP1154405B1 (en) Method and device for speech recognition in surroundings with varying noise levels
EP1593116B1 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
WO2005106852A1 (en) Improved voice signal conversion method and system
EP1730728A1 (en) Method and system for the quick conversion of a voice signal
EP3580755A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
EP1451548A2 (en) Speech detection system in an audio signal in noisy surrounding
EP2795618B1 (en) Method of detecting a predetermined frequency band in an audio data signal, detection device and computer program corresponding thereto
WO2004088633A1 (en) Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method
EP1131813B1 (en) Speech recognition method in a noisy acoustic signal and implementing system
EP1642264B1 (en) Voice recognition for large dynamic vocabularies
EP1285435B1 (en) Syntactic and semantic analysis of voice commands
EP3627510A1 (en) Filtering of an audio signal acquired by a voice recognition system
EP1803116B1 (en) Voice recognition method comprising a temporal marker insertion step and corresponding system
WO2001091106A1 (en) Adaptive analysis windows for speech recognition
Borsky et al. Dithering techniques in automatic recognition of speech corrupted by MP3 compression: Analysis, solutions and experiments
Tyagi Fepstrum features: Design and application to conversational speech recognition
EP0595950B1 (en) Real-time speech recognition device and method
WO2002082424A1 (en) Method and device for extracting acoustic parameters of a voice signal
JPH07152397A (en) Method of detecting voice section, device for communicating voice and device for recognizing voice
EP1665231B1 (en) Method for unsupervised doping and rejection of words not in a vocabulary in vocal recognition
FR2988894A1 (en) Method for detection of voice to detect presence of word signals in disturbed signal output from microphone, involves comparing detection function with phi threshold for detecting presence of absence of fundamental frequency

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase
WWE Wipo information: entry into national phase

Ref document number: 528645

Country of ref document: NZ

WWP Wipo information: published in national office

Ref document number: 528645

Country of ref document: NZ

WWG Wipo information: grant in national office

Ref document number: 528645

Country of ref document: NZ

NENP Non-entry into the national phase

Ref country code: JP