WO1997014139A1 - Signal prediction method and device for a speech coder - Google Patents

Signal prediction method and device for a speech coder Download PDF

Info

Publication number
WO1997014139A1
WO1997014139A1 PCT/FR1996/001596 FR9601596W WO9714139A1 WO 1997014139 A1 WO1997014139 A1 WO 1997014139A1 FR 9601596 W FR9601596 W FR 9601596W WO 9714139 A1 WO9714139 A1 WO 9714139A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
signal
vectors
optimal
filtered
Prior art date
Application number
PCT/FR1996/001596
Other languages
French (fr)
Inventor
Jacques Paulin
Bertrand Ravera
Original Assignee
Philips Electronics N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR9511937A external-priority patent/FR2739964A1/en
Application filed by Philips Electronics N.V. filed Critical Philips Electronics N.V.
Priority to EP96934902A priority Critical patent/EP0796490B1/en
Priority to JP9514782A priority patent/JPH11500837A/en
Priority to DE69609592T priority patent/DE69609592T2/en
Publication of WO1997014139A1 publication Critical patent/WO1997014139A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Definitions

  • the present invention relates to a method for predicting, in a so-called CELP speech coder, the residual vector signal, or residual vector, of the short-term analysis, said signal containing the periodicity information present in an initial speech signal to be coded. broken down into successive subframes, said prediction being carried out on the basis of optimal excitations predicted for the preceding subframe.
  • CELP speech coder comprising on the one hand a short-term analysis filter, which receives an initial voice signal to be coded broken down into successive sub-frames and delivers a residual vector signal defining the information of periodicity present in the initial voice signal, and on the other hand a device for predicting this residual signal and a circuit for estimating a prediction error by difference between this residual vector signal and the predicted vector signal, more particularly said communication device prediction.
  • the words emitted by a phonation organ constitute a vocal signal which presents two types of properties: on the one hand those related to the mechanism of the perception of this signal by the human auditory system (finite bandwidth, finite resolution in frequency, sensitivity at resonance frequencies, insensitivity to the phase of the frequency components of the signal, etc.), and on the other hand those linked to the operating mechanism of the phonation organ (pseudo-periodicity of the sounds, resonant structure of the signal, ).
  • the voice message itself can be considered as the combination of content information and additional so-called expression information, which reflects individual variations in the acoustic presentation of the message. It is obvious that an effective transmission of such a message would undoubtedly imply defining a criterion of loyalty. It is however more realistic, in general, to be content with defining a perceptual criterion, which makes it possible to recognize the absence of discernible differences between a message sent and the corresponding received signal.
  • the voice signal is, in fact, constituted by variations in air pressure, generated by the vocal tract under the action of the respiratory system which supplies the energy necessary for the production of speech.
  • the air flow out of the lungs is modulated at a so-called fundamental frequency F with which the production of vowels is associated.
  • This frequency which varies from 70 to 150 hertz approximately for men and from 150 to * ⁇ 00 hertz approximately for women, characterizes so-called voiced sounds (an example of representation of the amplitude A of a voiced sound as a function of time t is given in Figure 1).
  • the air flow then excites in forced oscillations of the cavities of the vocal tract, to the shape of which correspond natural frequencies F. ,, F 2 , F- ,, etc ... called formants.
  • the voice signal also includes signals which do not have the coherence of voiced sounds, but which are similar to noise, emitted by a source without natural frequency, and which do not excite the natural frequencies of the vocal tract. (these sounds are linked to the production of most consonants).
  • the characteristics of the voice signal can be highlighted by a spectral analysis, which shows that the emitted spectrum comprises on the one hand a spectrum of lines (periodic excitations) for the production of the voiced sounds and on the other hand a continuous spectrum (excitations inconsistent) for producing unvoiced sounds.
  • a further analysis of a voice signal ultimately shows that its processing with a view to a faithful transmission of the bandwidth which it represents leads to acoustically manipulating a considerable data stream.
  • This coder is based on a principle called analysis by synthesis (in English: linear prediction analysis-by-synthesis coding), which comprises on the one hand an analysis step, to determine the coefficients of the synthesis filter, and on the other hand, a step of analysis by synthesis, which consists in finding or calculating a sequence of excitations minimizing a determined error criterion (we often use the criterion of least squares).
  • analysis by synthesis in English: linear prediction analysis-by-synthesis coding
  • CELP coding a term which will be adopted in the following description
  • CELP coding is based on a simplified model of the speech production mode, according to which, as a first approximation, the voice signal can be modeled by a short-term (voice path) and long-term (voice source) correlation filter having a signal as input excitation.
  • CELP CELP
  • the draft recommendation G.723 cited above also uses so-called harmonic filtering.
  • Short-term analysis is based on a predictive method in which the basic idea implemented is, knowing an input voice signal or observed signal s (n)
  • the index n denotes the rank of the sample
  • the speech coder described in the document G.723 cited above receives a signal consisting of blocks, or frames, comprising 240 samples, with a sampling frequency of 8 kHz, and each frame is supposed to be divided into four sub-frames. of 60 samples each.
  • a filter 1 / A (z) called a synthesis filter, which, applied to an excitation signal x (n), makes it possible to obtain a signal p (n) as close as possible to the sampling signal s (n), it is equivalent to searching for a filter A (z), said to be of analysis, whose coefficients are such that the output signal of the filter is as bleached as possible when this filter is attacked by the signal to be transmitted (in an ideal coder, the output signal would be real white noise).
  • the first performs a decorrelation of adjacent samples: its purpose is to define the coefficients of the input filter most suitable for obtaining after filtering the signal known, of a residual signal as close as possible to white noise.
  • t (.) and p (.) denote respectively, the sample concerned in the signal to be modeled and the predicted sample
  • is a gain value
  • OLP in English, Open Loop Pitch
  • the determination of the period OLP and that of the gain ⁇ suffices to implement the prediction represented by the expression (3) -
  • this determination has the form of a direct dependence: to within a gain factor, the sample to be predicted would be equal to one of the samples already occurring. In fact, the principle adopted is even more general.
  • each of these groups of five vectors is called "V-vector".
  • the first component of the first vector of each V-vector is obtained by shifting from
  • the operation corresponding to expression (4) is therefore a prediction with linear combination of samples, during which the search for the solution vector is refined by varying the gain ⁇ , for example, in the case of the G project. 723 cited, by giving it five distinct values ( ⁇ is the gain vector formed by these five values), and also by adjusting the OLP quantity by a small value.
  • the selection, during this research, of the best possible vector solution is made by including in the course of the determination process a minimization step, in the least squares sense, the difference between the vector t (n) of the analysis filter output (whose coefficients will be transmitted) and the solution vectors resulting from the implementation of expression (4).
  • the analysis filter which, having received the voice signal to be transmitted, only delivers a residual signal constituting the periodicity information of this initial voice signal, it is this signal depleted t (n) for which the prediction explained below will be implemented with reference to FIG. 2.
  • the adaptive dictionary therefore contains the excitation vectors candidates for the construction of an approximation of this vector t (n) .
  • FIG. 2 shows, in the case of the G.723 project. an example of a prediction device making it possible to implement the principles of determination which have just been described.
  • This device firstly comprises a circuit 20 for storing excitation vectors (this is the adaptive dictionary mentioned above), constructed from the optimal excitation of the preceding sub-frame, that is to say -to say excitations selected during a previous implementation of the same prediction method for previous samples.
  • excitation vectors this is the adaptive dictionary mentioned above
  • OLP + ⁇ CLP (in English, Closed Loop Pitch)
  • circuit 20 is followed, in the case where one is in an even sub-frame and where ⁇ takes for example the three values - 1, 0 and + 1 (this is the case shown in FIG.
  • channels 30 here three identical channels 30a, 30b, 30c (circuit 20 is followed by four identical channels, referenced in a similar way, in the case where one is in an odd sub-frame, ⁇ then taking the four values - 1, 0, + 1, + 2).
  • Each of these channels processes the V-vector of the adaptive dictionary which corresponds to the step ⁇ of the channel considered, and includes in this firstly a series effect filter 31. having as response the impulse response of the synthesis filter (defined above).
  • a circuit 32 also receiving the target vector to be modeled t (n) is then provided for the calculation of a vector with twenty components V ( ⁇ ) consisting of five correlation terms between the filtered vectors and the residual vector (in English: cross-products), given by the scalar products of the five filtered vectors of the adaptive dictionary by the target vector t (n), of five energy terms , given by the scalar products of the five filtered vectors of the adaptive dictionary by themselves, and ten two-by-two correlation terms between the filtered vectors. From these correlations, it is possible to determine to what extent the residual vector or target vector t (n) can be modeled from the V-vectors of the adaptive dictionary.
  • the gains which are quantized, are provided by a memory * t0, or quantization table, which contains the possible values for the different gains (170 to 5.3 kbits / s., And 85 or 170 to 6.3 kbits / s., the 170 vectors of the table used in one or the other case then being the same).
  • the information relating to the gains is given, in this quantification table, in the form of vectors each having twenty terms (as previously) defined as follows: five gain values, five values equal to the square of these gains, ten values corresponding to the ten two by two of these five gain values.
  • the optimal gain vector ⁇ in the sense of expression (5) is the one which cancels the derivative of ⁇ with respect to each of the components of the vector, and which, by there, maximizes the scalar product of V ( ⁇ ) by a vector from the quantification table.
  • a circuit 50 then allows the selection of the maximum scalar product among the three or four scalar products available at the output of these three (or four) circuits, maximum scalar product to which an optimal value of the step correspondent (stored in a memory 110) and an optimal value of the gain vector j3.
  • the optimal value of ⁇ is of course one of the three (or four) values used in the three (or four) channels, and the value thus selected makes it possible to control a switch 60, comprising as many inputs as there are of tracks (three, or four). This switch, provided at the output of the filters 31. makes it possible to select the filtered V-vector constituting the best representative for the desired solution vector.
  • This selected filtered vector is then presented at the input of an amplifier 70 whose gain vector j3, delivered by the selection circuit 50, had been stored in a memory 80 present at the output of this circuit 50.
  • a first aim of the invention is therefore to propose a simpler prediction method, with practically equal quality, than that previously described.
  • the invention relates to a prediction method comprising for each of said subframes the following steps: (1) for different values of a step ⁇ said of determining said periodicity information, and with a view to selecting, from said previously predicted optimal excitations, an optimal gain vector p opt and the corresponding value of not optimal, a step of carrying out, in series and for each value of ⁇ , the following substeps:
  • (c) a preselection sub-step, for determining an initial gain vector ⁇ ( ⁇ ) init , squares of the components of said vector, and of the products of these same components taken two by two, delivering a second vector P ⁇ ⁇ i n i t •
  • Another object of the invention is to propose a speech coder similar to that which has just been described, but with reduced complexity and while retaining practically equivalent quality.
  • the invention relates, in an encoder as defined in the preamble to the description, a prediction device comprising:
  • (A) a vector storage circuit, called an adaptive dictionary, containing the optimal excitations predicted for the previous sub-frame;
  • (D) a memory, called a quantization table, which contains the components of the candidate gain vectors, as well as their squares and their products in pairs;
  • (E) a selector switch, in connection with said optimal value of the step, of the corresponding optimal vector V ( ⁇ ) composed of correlation terms, given by the scalar products of the vectors filtered by the residual vector of energy terms, given by the dot products of the vectors filtered by themselves, and of correlation terms, given by the dot products two by two of the filtered vectors; (F) a circuit for selecting, in said quantization table, the candidate gain vectors;
  • (I) a subtractor for estimating said prediction error by difference between said residual signal t (n) and the predicted signal p (n) delivered by said amplifier.
  • the solution according to the invention makes it possible to make a much lower number of courses (four in the case encoder according to this document), with practically insensible quality degradation.
  • the basic idea of the structure thus proposed is indeed the following: by making the simplifying assumption that the predictors are decorrelated, or, which is equivalent, that the correlations between filtered vectors taken two by two, previously defined, are zero, we can, for each sub-frame and for each channel corresponding to a step ⁇ , define an initial gain vector P ( ( 5) init , without costly matrix inversion calculation. The components of this vector are then, for the channel considered, the successive ratios of the correlation terms between the filtered vectors and the target vector and the energy terms of the vector V ( ⁇ ) defined above.
  • an initial vector gain ⁇ ( ⁇ J-init llows then determine an initial ⁇ value (and suboptimal) route requiring only the quantization table per subframe
  • the optimal initial step determined for each subframe by the calculation subset provided at the output of the channels, is then that which maximizes one of the three, or four depending on whether the subframe is even or odd , scalar products of ⁇ ⁇ ) ⁇ n it ⁇ ar V ( ⁇ ), determined by the calculation circuit provided in each channel after the calculation of V ( ⁇ ) (we recall here that V ( ⁇ ) was defined previously, while that ⁇ (° " ) i n it is a vector which includes the same number of components as V ( ⁇ ), namely, in this case: the five
  • the vector of the optimal gain for each sub-frame is then obtained using the circuit provided at the output of the quantization table and which performs the search for the maximum value of the scalar product of the vector V ( ⁇ ) corresponding to the optimal value the step ⁇ which has just been calculated by each of the vectors (here 170 or 85 depending on the flow) of said table.
  • This determination of the optimal gain vector requires only one scan of the quantization table per subframe, ie four per frame (instead of three or four per subframe depending on whether the subframe is even or odd. , or fourteen per frame), which results in a significant reduction in complexity.
  • FIG. 1 shows an example of representation of the amplitude of a voiced sound as a function of time
  • FIG. 2 and 3 show the structure of a closed-loop voicing period prediction device, respectively in the case of the cited G723 document and in the case of the present invention.
  • the prediction device presents, with that of FIG. 2, common elements, namely the circuit 20 for storing the candidate excitation vectors (or adaptive dictionary), the filters 31. the circuits 32 for calculating the correlation and energy terms, the memory 40 (or quantification table), the switch 60, the amplifier 70, the memory 80, the subtractor 90, and the memory 110.
  • the search for the optimal gain vector is then carried out by the selection circuit 150, and the vector thus selected is kept in memory 80.
  • the switch 60 provided at the output of the filters 31 and whose position is controlled by the value of ⁇ issue from memory 110, sends the selected filtered V-vector to amplifier 70.
  • the optimal filtered V-vector thus amplified is the prediction vector p (n), sent, as in the case of FIG. 2, to the subtractor 90.

Abstract

A method and a device for predicting periodicity data present in a voice signal to be coded that is subdivided into a series of sub-frames. The prediction is performed using an adaptive dictionary built up from the optimal excitation of each preceding sub-frame. The previous predictions are filtered and correlated to enable selection of the desired predicted signal, which is then compared with the starting information so that only the prediction error is coded and transmitted. The method and device are useful in video telephony.

Description

"METHODE ET DISPOSITIF DE PREDICTION DE SIGNAL POUR UN CODEUR DE PAROLE""SIGNAL PREDICTION METHOD AND DEVICE FOR A SPEECH ENCODER"
La présente invention concerne une méthode de prédiction, dans un codeur de parole dit CELP, du signal vectoriel résiduel, ou vecteur résiduel, de l'analyse à court terme, ledit signal contenant l'information de périodicité présente dans un signal vocal initial à coder décomposé en sous-trames successives, ladite prédiction étant effectuée à partir d'excitations optimales prédites pour la sous-trame précédente. Elle concerne également, dans un codeur de parole dit CELP comprenant d'une part un filtre d'analyse à court terme, qui reçoit un signal vocal initial à coder décomposé en sous-trames successives et délivre un signal vectoriel résiduel définissant l'information de périodicité présente dans le signal vocal initial, et d'autre part un dispositif de prédiction de ce signal résiduel et un circuit d'estimation d'erreur de prédiction par différence entre ce signal vectoriel résiduel et le signal vectoriel prédit, plus particulièrement ledit dispositif de prédiction.The present invention relates to a method for predicting, in a so-called CELP speech coder, the residual vector signal, or residual vector, of the short-term analysis, said signal containing the periodicity information present in an initial speech signal to be coded. broken down into successive subframes, said prediction being carried out on the basis of optimal excitations predicted for the preceding subframe. It also relates, in a so-called CELP speech coder comprising on the one hand a short-term analysis filter, which receives an initial voice signal to be coded broken down into successive sub-frames and delivers a residual vector signal defining the information of periodicity present in the initial voice signal, and on the other hand a device for predicting this residual signal and a circuit for estimating a prediction error by difference between this residual vector signal and the predicted vector signal, more particularly said communication device prediction.
Les paroles émises par un organe de phonation constituent un signal vocal qui présente deux types de propriétés : d'une part celles liées au mécanisme de la perception de ce signal par l'appareil auditif humain (bande passante finie, résolution finie en fréquence, sensibilité aux fréquences de résonance, insensibilité à la phase des composantes fréquentielles du signal, etc...), et d'autre part celles liées au mécanisme de fonctionnement de l'organe de phonation (pseudo-périodicité des sons, structure résonante du signal,...). Le message vocal lui-même peut être considéré comme la combinaison d'une information de contenu et d'une information supplémentaire dite d'expression et qui traduit les variations individuelles de présentation acoustique du message. Il est manifeste qu'une transmission efficace d'un tel message impliquerait sans aucun doute de définir un critère de fidélité. Il est cependant plus réaliste, en général, de se contenter de définir un critère perceptif, qui permet de reconnaître l'absence de différences perceptibles entre un message émis et le signal reçu correspondant.The words emitted by a phonation organ constitute a vocal signal which presents two types of properties: on the one hand those related to the mechanism of the perception of this signal by the human auditory system (finite bandwidth, finite resolution in frequency, sensitivity at resonance frequencies, insensitivity to the phase of the frequency components of the signal, etc.), and on the other hand those linked to the operating mechanism of the phonation organ (pseudo-periodicity of the sounds, resonant structure of the signal, ...). The voice message itself can be considered as the combination of content information and additional so-called expression information, which reflects individual variations in the acoustic presentation of the message. It is obvious that an effective transmission of such a message would undoubtedly imply defining a criterion of loyalty. It is however more realistic, in general, to be content with defining a perceptual criterion, which makes it possible to recognize the absence of discernible differences between a message sent and the corresponding received signal.
Le signal vocal est, en fait, constitué par des variations de la pression de l'air, engendrées par le conduit vocal sous l'action du système respiratoire qui fournit l'énergie nécessaire à la production de la parole. Le flux d'air qui sort des poumons est modulé à une fréquence F dite fondamentale à laquelle est associée la production des voyelles. Cette fréquence, qui varie de 70 à 150 hertz environ pour les hommes et de 150 à *τ00 hertz environ pour les femmes, caractérise les sons dits voisés (un exemple de représentation de l'amplitude A d'un son voisé en fonction du temps t est donné sur la figure 1). Le flux d'air excite alors en oscillations forcées des cavités du conduit vocal, à la forme desquelles correspondent des fréquences propres F.,, F2, F-,, etc... appelées formants. Le signal vocal comprend également des signaux qui, eux, n'ont pas la cohérence des sons voisés, mais qui s'apparentent à du bruit, émis par une source sans fréquence propre, et qui n'excitent pas les fréquences propres du conduit vocal (ces sons sont liés à la production de la plupart des consonnes). Les caractéristiques du signal vocal peuvent être mises en évidence par une analyse spectrale, qui montre que le spectre émis comprend d'une part un spectre de raies (excitations périodiques) pour la production des sons voisés et d'autre part un spectre continu (excitations incohérentes) pour la production des sons non voisés. Une analyse plus poussée d'un signal vocal montre en définitive que son traitement en vue d'une transmission fidèle de la bande passante qu'il représente conduit à manipuler au niveau acoustique un flux de données considérable. Des techniques d'analyse de la parole ont alors été mises au point pour réduire considérablement ce flux de données. Par l'élimination des redondances ainsi obtenue, le signal vocal, initialement de type analogique, peut alors après numérisation être comprimé à des débits qui, du fait du taux de compression atteint, autorisent son transport sur les lignes à très bas débit actuelles. En matière de compression de signaux vocaux, l'UnionThe voice signal is, in fact, constituted by variations in air pressure, generated by the vocal tract under the action of the respiratory system which supplies the energy necessary for the production of speech. The air flow out of the lungs is modulated at a so-called fundamental frequency F with which the production of vowels is associated. This frequency, which varies from 70 to 150 hertz approximately for men and from 150 to * τ00 hertz approximately for women, characterizes so-called voiced sounds (an example of representation of the amplitude A of a voiced sound as a function of time t is given in Figure 1). The air flow then excites in forced oscillations of the cavities of the vocal tract, to the shape of which correspond natural frequencies F. ,, F 2 , F- ,, etc ... called formants. The voice signal also includes signals which do not have the coherence of voiced sounds, but which are similar to noise, emitted by a source without natural frequency, and which do not excite the natural frequencies of the vocal tract. (these sounds are linked to the production of most consonants). The characteristics of the voice signal can be highlighted by a spectral analysis, which shows that the emitted spectrum comprises on the one hand a spectrum of lines (periodic excitations) for the production of the voiced sounds and on the other hand a continuous spectrum (excitations inconsistent) for producing unvoiced sounds. A further analysis of a voice signal ultimately shows that its processing with a view to a faithful transmission of the bandwidth which it represents leads to acoustically manipulating a considerable data stream. Speech analysis techniques were then developed to considerably reduce this data flow. By eliminating the redundancies thus obtained, the voice signal, initially of analog type, can then after digitization be compressed at bit rates which, due to the compression rate achieved, allow its transport on the current very low bit rate lines. In terms of voice signal compression, the Union
Internationale des Télécommunications a émis récemment, dans le cadre d'une application tournée vers la téléphonie à très bas débit, un projet de recommandation ("Draft Recommendation G.723 - Dual rate speech coder for multimédia télécommunication transmitting at 5-3 and 6.3 kbits/s", ITU, Study Group 15, 1995, 10ème "LBC Meeting", Newton, Ma., USA) visant à définir une norme pour un codeur de parole.Internationale des Télécommunications recently issued, as part of an application aimed at very low-speed telephony, a draft recommendation ("Draft Recommendation G.723 - Dual rate speech coder for multimedia telecommunication transmitting at 5-3 and 6.3 kbits / s", ITU, Study Group 15, 1995, 10 th "LBC Meeting", Newton, Ma. , USA) to define a standard for a speech coder.
Ce codeur repose sur un principe dit d'analyse par synthèse (en anglais : linear prédiction analysis-by-synthesis coding), qui comprend d'une part une étape d'analyse, pour déterminer les coefficients du filtre de synthèse, et d'autre part une étape d'analyse par synthèse, qui consiste à trouver ou calculer une séquence d'excitations minimisant un critère d'erreur déterminé (on utilise souvent le critère des moindres carrés). Le codage mentionné dans le projet de norme cité, dit codage prédictif linéaire excité par codes (en anglais, Code Excited Linear Prédictive encoding, ou codage CELP, terme que l'on adoptera dans la suite de la description), s'appuie sur un modèle simplifié du mode de production de la parole, selon lequel, en première approximation, le signal vocal peut être modélisé par un filtre de corrélation à court terme (conduit vocal) et à long terme (source vocale) ayant pour entrée un signal d'excitation.This coder is based on a principle called analysis by synthesis (in English: linear prediction analysis-by-synthesis coding), which comprises on the one hand an analysis step, to determine the coefficients of the synthesis filter, and on the other hand, a step of analysis by synthesis, which consists in finding or calculating a sequence of excitations minimizing a determined error criterion (we often use the criterion of least squares). The coding mentioned in the draft standard cited, known as Code Excited Linear Predictive Encoding, or CELP coding, a term which will be adopted in the following description), is based on a simplified model of the speech production mode, according to which, as a first approximation, the voice signal can be modeled by a short-term (voice path) and long-term (voice source) correlation filter having a signal as input excitation.
Des exemples détaillés de codeur prédictif à excitation par codes sont décrits dans de très nombreux documents, et par exemple dans le document "Digital audio coding for visual communications", P. Noll, Proceedings of the IEEE, vol.83. n"6, juin 1995* Un filtrage dit perceptuel est utilisé dans tous les codeursDetailed examples of predictive coded excitation coders are described in numerous documents, for example in the document "Digital audio coding for visual communications", P. Noll, Proceedings of the IEEE, vol.83. n "6, June 1995 * A so-called perceptual filtering is used in all coders
CELP, et le projet de recommandation G.723 cité plus haut utilise en plus un filtrage dit harmonique. On ne mentionnera pas, dans la suite de la description, ces filtrages qui n'entrent pas dans le domaine de l'invention. De ce fait, dans le codeur, l'analyse à court terme consiste alors en un filtrage de prédiction linéaire dit LPC (en anglais : linear prédictive coding) , qui est k-n communément appelé A(z), avec A(z) = 1 - 2^ akz "k (n = 10 dans le k-iCELP, and the draft recommendation G.723 cited above also uses so-called harmonic filtering. In the following description, these filterings which do not come within the scope of the invention will not be mentioned. Therefore, in the coder, the short-term analysis then consists of a linear prediction filtering called LPC (in English: linear predictive coding), which is kn commonly called A (z), with A (z) = 1 - 2 ^ a k z "k (n = 10 in ki
cas de la recommandation G.723), tandis que l'analyse à long terme, dite LTP (en anglais : long jterm prédiction) , utilise un filtrage de synthèse S(z) = 1/A(z), avec quantification des coefficients a, de A(z).case of recommendation G.723), while long-term analysis, called LTP (in English: long jterm prediction), uses filtering of synthesis S (z) = 1 / A (z), with quantification of the coefficients a, of A (z).
L'analyse à court terme repose sur une méthode prédictive dans laquelle l'idée de base mise en oeuvre est, connaissant un signal vocal d'entrée ou signal observé s(n)Short-term analysis is based on a predictive method in which the basic idea implemented is, knowing an input voice signal or observed signal s (n)
(l'indice n désigne le rang de l'échantillon), de trouver un filtre qui, excité par un signal d'excitation x(n), va délivrer un signal prédit p(n) aussi proche que possible de s(n) et qui permet donc, par différence entre s(n) et p(n) , d'obtenir une erreur résiduelle e(n) aussi faible que possible. La méthode de prédiction mise en oeuvre dans l'analyse à court terme est linéaire car chaque échantillon s(n) du signal vocal initial à transmettre peut être prédit (signal p(n) sous la forme d'une représentation par une combinaison linéaire d'un certain nombre (par exemple, dix) d'échantillons précédents, ce qui s'exprime par exemple de la façon suivante : k=N P(n)=∑ ak.s(n-k) (1) k=l(the index n denotes the rank of the sample), to find a filter which, excited by an excitation signal x (n), will deliver a predicted signal p (n) as close as possible to s (n) and which therefore makes it possible, by difference between s (n) and p (n), to obtain a residual error e (n) as small as possible. The prediction method implemented in the short-term analysis is linear because each sample s (n) of the initial speech signal to be transmitted can be predicted (signal p (n) in the form of a representation by a linear combination d 'a certain number (for example, ten) of previous samples, which is expressed for example in the following way: k = NP (n) = ∑ a k .s (nk) (1) k = l
Pour un nombre N d'échantillons égal à 10 par exemple, cette expression devient : p(n)
Figure imgf000006_0001
+ a2.s(n-2) + + a10.s(n-10) (2)
For a number N of samples equal to 10 for example, this expression becomes: p (n)
Figure imgf000006_0001
+ a 2 .s (n-2) + + a 10 .s (n-10) (2)
Cela revient à dire que le signal prédit p(n) est délivré par un filtre dont les coefficients ak (a^ à a^ dans l'exemple de l'expression (2)) sont calculés pour minimiser l'erreur de prédiction e(n) = s(n)-p(n) (on utilise en général, pour la minimisation de l'erreur obtenue, le critère de la méthode des moindres carrés) .This amounts to saying that the predicted signal p (n) is delivered by a filter whose coefficients a k (a ^ to a ^ in the example of expression (2)) are calculated to minimize the prediction error e (n) = s (n) -p (n) (in general, for the minimization of the error obtained, the criterion of the method of least squares).
Le codeur de parole décrit dans le document G.723 cité plus haut reçoit un signal constitué de blocs, ou trames, comprenant 240 échantillons, avec une fréquence d'échantillonnage de 8 kHz, et chaque trame est supposée être divisée en quatre sous-trames de 60 échantillons chacune. Si, connaissant le signal s(n) à transmettre, on recherche donc un filtre 1/A(z), dit filtre de synthèse, qui, appliqué à un signal d'excitation x(n), permet d'obtenir un signal p(n) aussi proche que possible du signal d'échantillonnage s(n), il est équivalent de rechercher un filtre A(z), dit d'analyse, dont les coefficients sont tels que le signal de sortie du filtre est le plus blanchi possible quand ce filtre est attaqué par le signal à transmettre (dans un codeur idéal, le signal de sortie serait un véritable bruit blanc). Au lieu de transmettre le signal vocal, il suffit alors, pour pouvoir le reconstituer ultérieurement, de transmettre les coefficients du filtre A(z) (ces coefficients sont moins consommateurs de bits de codage que ne le serait la transmission de l'erreur de prédiction ou du signal lui-même). Le codeur CELP mentionné ci-dessus comprend donc un tel filtre d'analyse à court terme, qui reçoit le signal vocal à transmettre et délivrerait, s'il était idéal, un bruit blanc. Ne l'étant pas, il délivre un signal résiduel e(n) , non complètement blanchi : ce signal appauvri contient encore l'information de périodicité de la partie voisée du signal vocal et devient lui-même le signal ou vecteur cible t (n) à modéliser à l'aide du filtre d'analyse à long terme précité (t(n) = e(n)).The speech coder described in the document G.723 cited above receives a signal consisting of blocks, or frames, comprising 240 samples, with a sampling frequency of 8 kHz, and each frame is supposed to be divided into four sub-frames. of 60 samples each. If, knowing the signal s (n) to be transmitted, we are therefore looking for a filter 1 / A (z), called a synthesis filter, which, applied to an excitation signal x (n), makes it possible to obtain a signal p (n) as close as possible to the sampling signal s (n), it is equivalent to searching for a filter A (z), said to be of analysis, whose coefficients are such that the output signal of the filter is as bleached as possible when this filter is attacked by the signal to be transmitted (in an ideal coder, the output signal would be real white noise). Instead of transmitting the voice signal, it is then sufficient, in order to be able to reconstitute it later, to transmit the coefficients of the filter A (z) (these coefficients consume less coding bits than would be the transmission of the prediction error or the signal itself). The CELP coder mentioned above therefore includes such a short-term analysis filter, which receives the voice signal to be transmitted and would deliver, if it were ideal, white noise. Not being it, it delivers a residual signal e (n), not completely whitened: this depleted signal still contains the periodicity information of the voiced part of the voice signal and itself becomes the target signal or vector t (n ) to model using the aforementioned long-term analysis filter (t (n) = e (n)).
En définitive, il faut donc distinguer, dans un codeur CELP, deux sortes de prédictions. La première, dite à court terme (en anglais : short term analysis), effectue une décorrélation des échantillons adjacents : elle a pour objet de définir les coefficients du filtre d'entrée les plus aptes à permettre l'obtention, après le filtrage du signal connu, d'un signal résiduel aussi proche que possible d'un bruit blanc. La seconde (l'invention décrite ci-après concerne uniquement ce deuxième type de prédiction) dite à long terme (en anglais : long term prédiction) et effectuée sur chaque sous-trame, exploite l'information résiduelle de périodicité des sons voisés selon la relation (3) suivante : p(n) = β . t(n-OLP) (3) Dans cette expression (3), t(.) et p(.) désignent respectivement, l'échantillon concerné dans le signal à modéliser et l'échantillon prédit, β est une valeur de gain, et OLP (en anglais, Open Loop Pitch) désigne la grandeur dite période de voisement en boucle ouverte, caractéristique de la périodicité du signal. La détermination de la période OLP et celle du gain β suffisent à mettre en oeuvre la prédiction représentée par l'expression (3)- On constate, en écrivant l'expression (3), que cette détermination a la forme d'une dépendance directe : à un facteur de gain près, l'échantillon à prédire serait égal à l'un des échantillons déjà survenus. En fait, le principe adopté est encore plus général.Ultimately, it is therefore necessary to distinguish, in a CELP coder, two kinds of predictions. The first, called short term (in English: short term analysis), performs a decorrelation of adjacent samples: its purpose is to define the coefficients of the input filter most suitable for obtaining after filtering the signal known, of a residual signal as close as possible to white noise. The second (the invention described below relates only to this second type of prediction) called long term (in English: long term prediction) and performed on each subframe, uses the residual information of periodicity of the voiced sounds according to the following relation (3): p (n) = β. t (n-OLP) (3) In this expression (3), t (.) and p (.) denote respectively, the sample concerned in the signal to be modeled and the predicted sample, β is a gain value, and OLP (in English, Open Loop Pitch) designates the quantity called open loop voicing period, characteristic of the periodicity of the signal. The determination of the period OLP and that of the gain β suffices to implement the prediction represented by the expression (3) - We note, by writing expression (3), that this determination has the form of a direct dependence: to within a gain factor, the sample to be predicted would be equal to one of the samples already occurring. In fact, the principle adopted is even more general.
Autour de cette valeur qui serait celle de la dépendance directe, on construit une relation plus complexe, sous la forme de l'expression (4) suivante, pour un prédicteur par exemple d'ordre 5 : k=+4 p(n) = ∑ β(k).t(n-OLP+k) (4) k=0 Dans un codeur CELP, et en particulier dans le cas du codeur faisant l'objet du projet de norme cité plus haut, une telle prédiction est réalisée à l'aide d'une mémoire appelée dictionnaire adaptatif. Ce dictionnaire adaptatif est construit à partir de la mémoire des vecteurs d'excitation optimale de la sous-trame précédente, partiellement remise à jour à chaque sous-trame. Il est constitué, pour les sous-trames paires, de trois groupes de cinq vecteurs (pour un prédicteur d'ordre 5) et, pour les sous-trames impaires, de quatre groupes de cinq vecteurs. On appelle par la suite "V-vecteur" chacun de ces groupes de cinq vecteurs. La première composante du premier vecteur de chaque V-vecteur est obtenue en se décalant deAround this value which would be that of direct dependence, we build a more complex relation, in the form of the following expression (4), for a predictor for example of order 5: k = + 4 p (n) = ∑ β (k) .t (n-OLP + k) (4) k = 0 In a CELP coder, and in particular in the case of the coder which is the subject of the draft standard cited above, such a prediction is made using a memory called an adaptive dictionary. This adaptive dictionary is constructed from the memory of the optimal excitation vectors of the previous sub-frame, partially updated with each sub-frame. It consists, for even subframes, of three groups of five vectors (for a predictor of order 5) and, for odd subframes, of four groups of five vectors. Hereinafter, each of these groups of five vectors is called "V-vector". The first component of the first vector of each V-vector is obtained by shifting from
(OLP-2+6) dans le passé, sachant que ό peut prendre les valeurs (-1, 0, 1) pour les sous-trames paires et (-1, 0, 1, 2) pour les sous- trames impaires. Les quatre autres vecteurs de chaque V-vecteur sont obtenus à l'aide du premier vecteur par décalages successifs d'un échantillon dans le sens des temps croissants.(OLP-2 + 6) in the past, knowing that ό can take the values (-1, 0, 1) for even subframes and (-1, 0, 1, 2) for odd subframes. The other four vectors of each V-vector are obtained using the first vector by successive shifts of a sample in the direction of increasing times.
L'opération correspondant à l'expression (4) est donc une prédiction avec combinaison linéaire d'échantillons, au cours de laquelle on raffine la recherche du vecteur solution en faisant varier le gain β, par exemple, dans le cas du projet G.723 cité, en lui donnant cinq valeurs distinctes ( β est le vecteur de gain formé de ces cinq valeurs), et en ajustant également d'une faible valeur δ la grandeur OLP. La sélection, au cours de cette recherche, du meilleur vecteur solution possible est faite en incluant dans le déroulement du procédé de détermination une étape de minimisation, au sens des moindres carrés, de la différence entre le vecteur t (n) de sortie du filtre d'analyse (dont on transmettra les coefficients) et les vecteurs solutions résultant de la mise en oeuvre de l'expression (4). Finalement, comme un codeur CELP comprend à son entrée le filtre d'analyse qui, ayant reçu le signal vocal à transmettre, ne délivre plus qu'un signal résiduel constituant l'information de périodicité de ce signal vocal initial, c'est ce signal appauvri t(n) pour lequel va être mise en oeuvre la prédiction expliquée ci-après en référence à la figure 2. Le dictionnaire adaptatif contient donc les vecteurs d'excitation candidats à ia construction d'une approximation de ce vecteur t (n) .The operation corresponding to expression (4) is therefore a prediction with linear combination of samples, during which the search for the solution vector is refined by varying the gain β, for example, in the case of the G project. 723 cited, by giving it five distinct values (β is the gain vector formed by these five values), and also by adjusting the OLP quantity by a small value. The selection, during this research, of the best possible vector solution is made by including in the course of the determination process a minimization step, in the least squares sense, the difference between the vector t (n) of the analysis filter output (whose coefficients will be transmitted) and the solution vectors resulting from the implementation of expression (4). Finally, as a CELP coder understands at its input the analysis filter which, having received the voice signal to be transmitted, only delivers a residual signal constituting the periodicity information of this initial voice signal, it is this signal depleted t (n) for which the prediction explained below will be implemented with reference to FIG. 2. The adaptive dictionary therefore contains the excitation vectors candidates for the construction of an approximation of this vector t (n) .
La figure 2 montre, dans le cas du projet G.723. un exemple de dispositif de prédiction permettant de mettre en oeuvre les principes de détermination qui viennent d'être décrits. Ce dispositif comprend tout d'abord un circuit 20 de stockage de vecteurs d'excitation (c'est le dictionnaire adaptatif mentionné ci- dessus), construit à partir de l'excitation optimale de la sous- trame précédente, c'est-à-dire des excitations sélectionnées lors d'une précédente mise en oeuvre de la même méthode de prédiction pour de précédents échantillons. Pour trouver la valeur du vecteur de gain β ainsi que celle de la grandeur OLP + δ = CLP (en anglais, Closed Loop Pitch) , le circuit 20 est suivi, dans le cas où l'on se trouve dans une sous-trame paire et où δ prend par exemple les trois valeurs - 1, 0 et + 1 (c'est le cas représenté sur la figure 2), de voies 30, ici trois voies 30a, 30b, 30c identiques (le circuit 20 est suivi de quatre voies identiques, référencées de façon similaire, dans le cas où l'on se trouve dans une sous-trame impaire, δ prenant alors les quatre valeurs - 1, 0, + 1, + 2). Chacune de ces voies (selon le cas, de ces trois ou quatre voies dans l'exemple décrit, sans que ces nombres soient limitatifs) traite le V-vecteur du dictionnaire adaptatif qui correspond au pas δ de la voie considérée, et comprend à cet effet en série tout d'abord un filtre 31. ayant pour réponse la réponse impulsionnelle du filtre de synthèse {défini plus haut) . Un circuit 32, recevant également le vecteur cible à modéliser t (n) est ensuite prévu pour le calcul d'un vecteur à vingt composantes V(δ) constitué de cinq termes de corrélation entre les vecteurs filtrés et le vecteur résiduel (en anglais : cross-products) , donnés par les produits scalaires des cinq vecteurs filtrés du dictionnaire adaptatif par le vecteur cible t (n) , de cinq termes d'énergie, donnés par les produits scalaires des cinq vecteurs filtrés du dictionnaire adaptatif par eux-mêmes, et de dix termes de corrélation deux à deux entre les vecteurs filtrés. A partir de ces corrélations, il est possible de déterminer dans quelle mesure le vecteur résiduel ou vecteur cible t (n) peut être modélisé à partir des V-vecteurs du dictionnaire adaptatif. Les gains, qui sont quantifiés, sont fournis par une mémoire *t0, ou table de quantification, qui contient les valeurs possibles pour les différents gains (170 à 5,3 kbits/s., et 85 ou 170 à 6,3 kbits/s., les 170 vecteurs de la table utilisés dans l'un ou l'autre cas étant alors les mêmes). Les informations relatives aux gains sont données, dans cette table de quantification, sous la forme de vecteurs possédant chacun vingt termes (comme précédemment) définis comme suit : cinq valeurs de gain, cinq valeurs égales au carré de ces gains, dix valeurs correspondant aux dix produits deux à deux de ces cinq valeurs de gain.Figure 2 shows, in the case of the G.723 project. an example of a prediction device making it possible to implement the principles of determination which have just been described. This device firstly comprises a circuit 20 for storing excitation vectors (this is the adaptive dictionary mentioned above), constructed from the optimal excitation of the preceding sub-frame, that is to say -to say excitations selected during a previous implementation of the same prediction method for previous samples. To find the value of the gain vector β as well as that of the quantity OLP + δ = CLP (in English, Closed Loop Pitch), circuit 20 is followed, in the case where one is in an even sub-frame and where δ takes for example the three values - 1, 0 and + 1 (this is the case shown in FIG. 2), of channels 30, here three identical channels 30a, 30b, 30c (circuit 20 is followed by four identical channels, referenced in a similar way, in the case where one is in an odd sub-frame, δ then taking the four values - 1, 0, + 1, + 2). Each of these channels (as the case may be, of these three or four channels in the example described, without these numbers being limiting) processes the V-vector of the adaptive dictionary which corresponds to the step δ of the channel considered, and includes in this firstly a series effect filter 31. having as response the impulse response of the synthesis filter (defined above). A circuit 32, also receiving the target vector to be modeled t (n) is then provided for the calculation of a vector with twenty components V (δ) consisting of five correlation terms between the filtered vectors and the residual vector (in English: cross-products), given by the scalar products of the five filtered vectors of the adaptive dictionary by the target vector t (n), of five energy terms , given by the scalar products of the five filtered vectors of the adaptive dictionary by themselves, and ten two-by-two correlation terms between the filtered vectors. From these correlations, it is possible to determine to what extent the residual vector or target vector t (n) can be modeled from the V-vectors of the adaptive dictionary. The gains, which are quantized, are provided by a memory * t0, or quantization table, which contains the possible values for the different gains (170 to 5.3 kbits / s., And 85 or 170 to 6.3 kbits / s., the 170 vectors of the table used in one or the other case then being the same). The information relating to the gains is given, in this quantification table, in the form of vectors each having twenty terms (as previously) defined as follows: five gain values, five values equal to the square of these gains, ten values corresponding to the ten two by two of these five gain values.
La minimisation de l'erreur de prédiction à effectuer pour chaque valeur de δ (c'est-à-dire dans chacune des trois ou quatre voies : dans l'exemple décrit, pour les trois valeurs δ = -1, 0, +1 ou, respectivement, les quatres valeurs δ = -1, 0, 1, 2) conformément à l'expression (5) suivante : k-. ε = Min(∑e2(n)) - Min£ [t(n) -£ β (k) .f (n-OLP+k) ]2 (5) n n k»oThe minimization of the prediction error to be performed for each value of δ (i.e. in each of the three or four channels: in the example described, for the three values δ = -1, 0, +1 or, respectively, the four values δ = -1, 0, 1, 2) in accordance with the following expression (5): k-. ε = Min (∑e 2 (n)) - Min £ [t (n) - £ β (k) .f (n-OLP + k)] 2 (5) nnk »o
(avec n = 0 à 59. par exemple, pour une sous-trame à soixante échantillons, et f(.) = échantillon de l'excitation optimale passée filtrée par le filtre de synthèse) est réalisée dans un circuit 33 de recherche de la valeur maximale des produits scalaires du vecteur V(δ) par chacun des 170 (ou 85) vecteurs de la table de quantification. On remarquera en effet que le vecteur de gain μ optimal au sens de l'expression (5) est celui qui annule la dérivée de ε par rapport à chacune des composantes du vecteur, et qui, par là même, rend maximal le produit scalaire de V(δ) par un vecteur de la table de quantification. En sortie des circuits 33. un circuit 50 permet alors la sélection du produit scalaire maximal parmi les trois ou quatre produits scalaires disponibles en sortie de ces trois (ou quatre) circuits, produit scalaire maximal auquel correspondent une valeur optimale du pas δ (stockée dans une mémoire 110) et une valeur optimale du vecteur de gain j3. La valeur optimale de δ est bien entendu l'une des trois (ou quatre) valeurs utilisées dans les trois (ou quatre) voies, et la valeur ainsi sélectionnée permet de commander un commutateur 60, comprenant autant d'entrées qu'il y a de voies (trois, ou quatre). Ce commutateur, prévu en sortie des filtres 31. permet de sélectionner le V-vecteur filtré constituant le meilleur représentant pour le vecteur solution recherché. Ce vecteur filtré sélectionné est alors présenté à l'entrée d'un amplificateur 70 dont le vecteur de gain j3 , délivré par le circuit de sélection 50, avait été stocké dans une mémoire 80 présente en sortie de ce circuit 50. Le V-vecteur filtré optimal ainsi amplifié est le vecteur de prédiction p(n) envoyé vers la borne négative d'un soustracteur 90 qui reçoit sur sa borne positive le vecteur t (n) de sortie du filtre d'analyse du codeur CELP. Ce soustracteur 90 délivre un signal d'erreur e(n) = t (n) - p (n) .(with n = 0 to 59. for example, for a subframe with sixty samples, and f (.) = sample of the past optimal excitation filtered by the synthesis filter) is carried out in a circuit 33 for searching for the maximum value of the scalar products of the vector V (δ) by each of the 170 (or 85) vectors of the quantification table. It will indeed be noted that the optimal gain vector μ in the sense of expression (5) is the one which cancels the derivative of ε with respect to each of the components of the vector, and which, by there, maximizes the scalar product of V (δ) by a vector from the quantification table. At the output of the circuits 33. a circuit 50 then allows the selection of the maximum scalar product among the three or four scalar products available at the output of these three (or four) circuits, maximum scalar product to which an optimal value of the step correspondent (stored in a memory 110) and an optimal value of the gain vector j3. The optimal value of δ is of course one of the three (or four) values used in the three (or four) channels, and the value thus selected makes it possible to control a switch 60, comprising as many inputs as there are of tracks (three, or four). This switch, provided at the output of the filters 31. makes it possible to select the filtered V-vector constituting the best representative for the desired solution vector. This selected filtered vector is then presented at the input of an amplifier 70 whose gain vector j3, delivered by the selection circuit 50, had been stored in a memory 80 present at the output of this circuit 50. The V-vector optimal filter thus amplified is the prediction vector p (n) sent to the negative terminal of a subtractor 90 which receives on its positive terminal the vector t (n) of output from the analysis filter of the CELP coder. This subtractor 90 delivers an error signal e (n) = t (n) - p (n).
La qualité obtenue avec un tel codeur de parole (tel que décrit dans le document G?23) est due en bonne partie à la finesse d'analyse de cette recherche de corrélation à long terme en boucle fermée, effectuée à l'aide du circuit 20 constituant le dictionnaire adaptatif. Cette qualité n'est cependant obtenue qu'au prix d'une très forte complexité, qui apparaît d'emblée dans la suite d'opérations qu'implique la mise en oeuvre du codeur.The quality obtained with such a speech coder (as described in document G? 23) is due in large part to the finesse of analysis of this search for long-term correlation in closed loop, carried out using the circuit. 20 constituting the adaptive dictionary. This quality is, however, only obtained at the cost of a very high complexity, which immediately appears in the series of operations implied by the implementation of the coder.
Un premier but de l'invention est donc de proposer une méthode de prédiction plus simple, à qualité pratiquement égale, que celle précédemment décrite.A first aim of the invention is therefore to propose a simpler prediction method, with practically equal quality, than that previously described.
A cet effet l'invention concerne une méthode de prédiction comprenant pour chacune desdites sous-trames les étapes suivantes : (1) pour différentes valeurs d'un pas δ dit de détermination de ladite information de périodicité, et en vue de la sélection, à partir desdites excitations optimales précédemment prédites, d'un vecteur de gain optimal popt et de la valeur correspondante du pas optimal, une étape de réalisation, en série et pour chaque valeur de δ, des sous-étapes suivantes :To this end, the invention relates to a prediction method comprising for each of said subframes the following steps: (1) for different values of a step δ said of determining said periodicity information, and with a view to selecting, from said previously predicted optimal excitations, an optimal gain vector p opt and the corresponding value of not optimal, a step of carrying out, in series and for each value of δ, the following substeps:
(a) une sous-étape de filtrage ;(a) a filtering sub-step;
(b) une sous-étape de calcul de termes de corrélation entre les vecteurs filtrés et le vecteur résiduel, de termes d'énergie des vecteurs filtrés, et de termes de corrélation entre les vecteurs filtrés pris deux à deux, délivrant un premier vecteur V(δ) ;(b) a sub-step of calculating correlation terms between the filtered vectors and the residual vector, energy terms of the filtered vectors, and correlation terms between the filtered vectors taken two by two, delivering a first vector V (δ);
(c) une sous-étape de présélection, pour la détermination d'un vecteur initial de gain β(δ)init, des carrés des composantes dudit vecteur, et des produits de ces mêmes composantes prises deux à deux, délivrant un deuxième vecteur Pτ^^init • (c) a preselection sub-step, for determining an initial gain vector β (δ) init , squares of the components of said vector, and of the products of these same components taken two by two, delivering a second vector Pτ ^^ i n i t •
(2) une étape de sélection de ladite valeur optimale du pas δ, celle-ci correspondant à la voie pour laquelle le produit scalaire desdits premier et deuxième vecteurs V(δ) et
Figure imgf000012_0001
est maximum, et, pour cette valeur optimale de δ, de sélection, dans une table dite de quantification, dudit vecteur de gain optimal βopt , qui est celui de la table pour lequel le produit scalaire dudit premier vecteur V(δ) par chacun des vecteurs de la table est maximal ; (3) une étape de calcul dudit signal vectoriel résiduel prédit, ou vecteur résiduel prédit, à partir d'une part des vecteurs d'excitation filtrés de la sous-trame précédente qui correspondent à ladite valeur optimale de δ précédemment sélectionnée et d'autre part dudit vecteur de gain optimal sélectionné. Un autre but de l'invention est de proposer un codeur de parole similaire à celui qui vient d'être décrit, mais avec une complexité réduite et tout en conservant une qualité pratiquement équivalente. A cet effet l'invention concerne, dans un codeur tel que défini dans le préambule de la description, un dispositif de prédiction comprenant :
(2) a step of selecting said optimal value of the step δ, this corresponding to the path for which the scalar product of said first and second vectors V (δ) and
Figure imgf000012_0001
is maximum, and, for this optimal value of δ, of selection, in a so-called quantification table, of said optimal gain vector β opt , which is that of the table for which the scalar product of said first vector V (δ) by each table vectors is maximum; (3) a step of calculating said predicted residual vector signal, or predicted residual vector, on the one hand from the filtered excitation vectors of the previous sub-frame which correspond to said optimal value of δ previously selected and on the other part of said selected optimal gain vector. Another object of the invention is to propose a speech coder similar to that which has just been described, but with reduced complexity and while retaining practically equivalent quality. To this end, the invention relates, in an encoder as defined in the preamble to the description, a prediction device comprising:
(A) un circuit de mémorisation de vecteurs, dit dictionnaire adaptatif, contenant les excitations optimales prédites pour la sous-trame précédente ;(A) a vector storage circuit, called an adaptive dictionary, containing the optimal excitations predicted for the previous sub-frame;
(B) en sortie dudit circuit de mémorisation, une pluralité de voies de calcul d'un vecteur
Figure imgf000013_0001
prévues en parallèle chacune pour une valeur déterminée d'un pas δ dit de détermination de ladite information de périodicité et comprenant elles-mêmes chacune en série :
(B) at the output of said storage circuit, a plurality of vector calculation channels
Figure imgf000013_0001
each provided in parallel for a determined value of a step δ said of determination of said periodicity information and themselves comprising each in series:
(a) un filtre de réponse impulsionnelle égale à celle du filtre de synthèse construit à partir dudit filtre d'analyse ;(a) an impulse response filter equal to that of the synthesis filter constructed from said analysis filter;
(b) un circuit de calcul de termes de corrélation entre les vecteurs filtrés, provenant dudit dictionnaire adaptatif, et ledit vecteur résiduel ou vecteur-cible, de termes d'énergie des vecteurs filtrés et de termes de corrélation entre les vecteurs filtrés pris deux à deux ;(b) a circuit for calculating correlation terms between the filtered vectors, coming from said adaptive dictionary, and said residual vector or target vector, of energy terms of the filtered vectors and of correlation terms between the filtered vectors taken two to of them ;
(c) un circuit de calcul, par voie, dudit vecteur Pτ(δ)init' dont les composantes sont d'une part les composantes d'un vecteur initial de gain, d'autre part les carrés des composantes dudit vecteur, et enfin les produits de ces mêmes composantes prises deux à deux ;(c) a circuit for calculating, by channel, said vector Pτ (δ) ini t 'whose components are on the one hand the components of an initial gain vector, on the other hand the squares of the components of said vector, and finally the products of these same components taken two by two;
(C) un sous-ensemble de calcul et de mémorisation de la valeur optimale dudit pas ;(C) a subset for calculating and storing the optimal value of said step;
(D) une mémoire, dite table de quantification, qui contient les composantes des vecteurs de gain candidats, ainsi que leurs carrés et leurs produits deux à deux ;(D) a memory, called a quantization table, which contains the components of the candidate gain vectors, as well as their squares and their products in pairs;
(E) un commutateur de sélection, en liaison avec ladite valeur optimale du pas, du vecteur optimal V(δ) correspondant composé de termes de corrélation, donnés par les produits scalaires des vecteur filtrés par le vecteur résiduel de termes d'énergie, donnés par les produits scalaires des vecteurs filtrés par eux-mêmes, et de termes de corrélation, donnés par les produits scalaires deux à deux des vecteurs filtrés ; (F) un circuit de sélection, dans ladite table de quantification, des vecteurs de gain candidats ;(E) a selector switch, in connection with said optimal value of the step, of the corresponding optimal vector V (δ) composed of correlation terms, given by the scalar products of the vectors filtered by the residual vector of energy terms, given by the dot products of the vectors filtered by themselves, and of correlation terms, given by the dot products two by two of the filtered vectors; (F) a circuit for selecting, in said quantization table, the candidate gain vectors;
(G) une mémoire de stockage du vecteur de gain ainsi sélectionné ; (H) en sortie de cette mémoire, un amplificateur de la sortie de filtre sélectionnée selon ladite valeur de pas optimal par un commutateur ;(G) a memory for storing the gain vector thus selected; (H) at the output of this memory, an amplifier of the filter output selected according to said optimum step value by a switch;
(I) un soustracteur d'estimation de ladite erreur de prédiction par différence entre ledit signal résiduel t (n) et le signal prédit p (n) délivré par ledit amplificateur.(I) a subtractor for estimating said prediction error by difference between said residual signal t (n) and the predicted signal p (n) delivered by said amplifier.
Alors que, dans le cas du document G723. le parcours de la table de quantification des gains est très complexe, puisqu'il est effectué à raison de lk fois par trame de 240 échantillons, la solution conforme à l'invention permet de faire un nombre de parcours bien moindre (quatre dans le cas du codeur selon ce document) , avec une dégradation pratiquement insensible de la qualité. L'idée de base de la structure ainsi proposée est en effet la suivante : en faisant l'hypothèse simplificatrice que les prédicteurs sont décorrélés, ou, ce qui est équivalent, que les corrélations entre vecteurs filtrés pris deux à deux, précédemment définies, sont nulles, on peut, pour chaque sous-trame et pour chaque voie correspondant à un pas δ, définir un vecteur initial de gain P((5)init, sans calcul coûteux d'inversion de matrice. Les composantes de ce vecteur sont alors, pour la voie considérée, les rapports successifs des termes de corrélation entre les vecteurs filtrés et le vecteur cible et des termes d'énergie du vecteur V(δ) défini précédemment.Whereas, in the case of document G723. the course of the gain quantification table is very complex, since it is carried out at the rate of lk times per frame of 240 samples, the solution according to the invention makes it possible to make a much lower number of courses (four in the case encoder according to this document), with practically insensible quality degradation. The basic idea of the structure thus proposed is indeed the following: by making the simplifying assumption that the predictors are decorrelated, or, which is equivalent, that the correlations between filtered vectors taken two by two, previously defined, are zero, we can, for each sub-frame and for each channel corresponding to a step δ, define an initial gain vector P ( ( 5) init , without costly matrix inversion calculation. The components of this vector are then, for the channel considered, the successive ratios of the correlation terms between the filtered vectors and the target vector and the energy terms of the vector V (δ) defined above.
La donnée, pour chaque voie, d'un vecteur initial de gain β (δJ-init Permet alors de déterminer une valeur de δ initiale (et sous-optimale) ne nécessitant qu'un parcours de la table de quantification par sous-trame. En effet, le critère du choix du pas δ qui minimise l'erreur de prédiction est tiré directement de la remarque faite plus haut, selon laquelle le vecteur de gain β optimal au sens de l'expression (5) est celui qui annule la dérivée de cette expression par rapport à chacune des composantes du vecteur : le pas initial optimal, déterminé pour chaque sous-trame par le sous-ensemble de calcul prévu en sortie des voies, est alors celui qui rend maximal l'un des trois, ou quatre selon que la sous- trame est paire ou impaire, produits scalaires de κτ^)ιnit ^ar V(δ), déterminés par le circuit de calcul prévu dans chaque voie après le calcul de V(δ) (on rappelle ici que V(δ) a été défini précédemment, tandis que βτ(°")init est un vecteur qui comprend le même nombre de composantes que V(δ), à savoir, dans le cas présent : les cinq composantes du vecteur initial de gain β (^init* les cinq carrés des composantes de ce vecteur, et les dix produits de ces mêmes composantes prises deux à deux) . Le vecteur du gain optimal pour chaque sous-trame est alors obtenu à l'aide du circuit prévu en sortie de la table de quantification et qui effectue la recherche de la valeur maximale du produit scalaire du vecteur V(δ) correspondant à la valeur optimale du pas δ qui vient d'être calculée par chacun des vecteurs (ici 170 ou 85 selon le débit) de ladite table. Cette détermination du vecteur de gain optimal ne nécessite plus qu'un seul balayage de la table de quantification par sous-trame, soit quatre par trame (au lieu de trois ou quatre par sous-trame selon que la sous-trame est paire ou impaire, soit quatorze par trame) , ce qui entraîne une réduction notable de la complexité.The data for each channel, an initial vector gain β (δJ-init llows then determine an initial δ value (and suboptimal) route requiring only the quantization table per subframe Indeed, the criterion of the choice of step δ which minimizes the prediction error is taken directly from the remark made above, according to which the optimal gain vector β in the sense of expression (5) is that which cancels the derived from this expression with respect to each of the components of the vector: the optimal initial step, determined for each subframe by the calculation subset provided at the output of the channels, is then that which maximizes one of the three, or four depending on whether the subframe is even or odd , scalar products of κτ ^) ι n it ^ ar V (δ), determined by the calculation circuit provided in each channel after the calculation of V (δ) (we recall here that V (δ) was defined previously, while that βτ (° " ) i n it is a vector which includes the same number of components as V (δ), namely, in this case: the five components of the initial gain vector β (^ i nit * the five squares components of this vector, and the ten products of these same components taken two by two. The vector of the optimal gain for each sub-frame is then obtained using the circuit provided at the output of the quantization table and which performs the search for the maximum value of the scalar product of the vector V (δ) corresponding to the optimal value the step δ which has just been calculated by each of the vectors (here 170 or 85 depending on the flow) of said table. This determination of the optimal gain vector requires only one scan of the quantization table per subframe, ie four per frame (instead of three or four per subframe depending on whether the subframe is even or odd. , or fourteen per frame), which results in a significant reduction in complexity.
Les particularités de l'invention apparaîtront de façon plus précise dans la description qui suit et dans les dessins annexés, donnés à titre d'exemples non limitatifs et dans lesquels :The features of the invention will appear more precisely in the description which follows and in the appended drawings, given by way of nonlimiting examples and in which:
- la figure 1 montre un exemple de représentation de l'amplitude d'un son voisé en fonction du temps ;- Figure 1 shows an example of representation of the amplitude of a voiced sound as a function of time;
- les figures 2 et 3 montrent la structure d'un dispositif de prédiction de période de voisement en boucle fermée, respectivement dans le cas du document G723 cité et dans le cas de la présente invention.- Figures 2 and 3 show the structure of a closed-loop voicing period prediction device, respectively in the case of the cited G723 document and in the case of the present invention.
Le dispositif de prédiction selon l'invention, tel que représenté sur la figure 3. présente avec celui de la figure 2 des éléments communs, à savoir le circuit 20 de mémorisation des vecteurs d'excitation candidats (ou dictionnaire adaptatif), les filtres 31. les circuits 32 de calcul des termes de corrélation et d'énergie, la mémoire 40 (ou table de quantification), le commutateur 60, l'amplificateur 70, la mémoire 80, le soustracteur 90, et la mémoire 110.The prediction device according to the invention, as represented in FIG. 3, presents, with that of FIG. 2, common elements, namely the circuit 20 for storing the candidate excitation vectors (or adaptive dictionary), the filters 31. the circuits 32 for calculating the correlation and energy terms, the memory 40 (or quantification table), the switch 60, the amplifier 70, the memory 80, the subtractor 90, and the memory 110.
La simplification apportée par le mode de réalisation de la figure 3 est la suivante. En choisissant, dans chacune des voies maintenant référencées 130a, 130b, 130c, un vecteur de gain initial β(δ). ... il est possible de déterminer une valeur de δ initiale ne nécessitant plus qu'un parcours de la table de quantification (mémoire kO) par sous-trame (ce choix est effectué dans trois, ou quatre, circuits de présélection 101, selon le nombre de voies). Cette détermination du pas δ optimal est effectuée, pour les vecteurs de gain initiaux ainsi choisis, dans un circuit de calcul 102, et la valeur de δ, conservée en mémoire 110, permet de sélectionner, à l'aide d'un commutateur 161, celle des sorties des circuits de calcul 32 qui lui correspond. La recherche du vecteur de gain optimal est alors effectuée par le circuit de sélection 150, et le vecteur ainsi sélectionné est conservé en mémoire 80. Le commutateur 60, prévu en sortie des filtres 31 et dont la position est commandée par la valeur de δ issue de la mémoire 110, envoie vers l'amplificateur 70 le V-vecteur filtré sélectionné. Le V- vecteur filtré optimal ainsi amplifié est le vecteur de prédiction p(n) , envoyé, comme dans le cas de la figure 2, vers le soustracteur 90.The simplification provided by the embodiment of Figure 3 is as follows. By choosing, in each of the channels now referenced 130a, 130b, 130c, an initial gain vector β (δ). ... it is possible to determine an initial value of δ requiring only one scan of the quantification table (memory kO) per subframe (this choice is made in three, or four, preselection circuits 101, according to the number of lanes). This determination of the optimal pitch δ is carried out, for the initial gain vectors thus chosen, in a calculation circuit 102, and the value of δ, kept in memory 110, makes it possible to select, using a switch 161, that of the outputs of the calculation circuits 32 which corresponds to it. The search for the optimal gain vector is then carried out by the selection circuit 150, and the vector thus selected is kept in memory 80. The switch 60, provided at the output of the filters 31 and whose position is controlled by the value of δ issue from memory 110, sends the selected filtered V-vector to amplifier 70. The optimal filtered V-vector thus amplified is the prediction vector p (n), sent, as in the case of FIG. 2, to the subtractor 90.
La simplification de réalisation ainsi apportée ne dégrade la qualité qui était obtenue dans le cas du document G.723 que de 0,2 dB en moyenne, sur la base de 20 signaux de parole de 12 s. chacun fournis par 20 locuteurs différents. Cette dégradation du rapport signal/bruit moyen (RSB moyen) n'est pas perceptible. The simplification of implementation thus brought degrades the quality which was obtained in the case of the document G.723 only by 0.2 dB on average, on the basis of 20 speech signals of 12 s. each provided by 20 different speakers. This deterioration in the average signal / noise ratio (average SNR) is not perceptible.

Claims

REVENDICATIONS : i. Méthode de prédiction, dans un codeur de parole dit CELP, du signal vectoriel résiduel, ou vecteur résiduel, de l'analyse à court terme, ledit signal contenant l'information de périodicité présente dans un signal vocal initial à coder décomposé en sous-trames successives, ladite prédiction étant effectuée à partir d'excitations optimales prédites pour la sous-trame précédente, ladite méthode comprenant pour chacune desdites sous- trames les étapes suivantes : (1) pour différentes valeurs d'un pas δ dit de détermination de ladite information de périodicité, et en vue de la sélection, à partir desdites excitations optimales précédemment prédites, d'un vecteur de gain optimal βopC et de la valeur correspondante du pas optimal, une étape de réalisation, en série et pour chaque valeur de δ, des sous-étapes suivantes :CLAIMS: i. Method for predicting, in a so-called CELP speech coder, the residual vector signal, or residual vector, of the short-term analysis, said signal containing the periodicity information present in an initial voice signal to be coded broken down into sub-frames successive, said prediction being carried out on the basis of optimal excitations predicted for the preceding sub-frame, said method comprising for each of said sub-frames the following steps: (1) for different values of a step δ said of determination of said information periodicity, and with a view to selecting, from said previously predicted optimal excitations, an optimal gain vector β opC and the corresponding value of the optimal step, a step of production, in series and for each value of δ, of the following substeps:
(a) une sous-étape de filtrage ;(a) a filtering sub-step;
(b) une sous-étape de calcul de termes de corrélation entre les vecteurs filtrés et le vecteur résiduel, de termes d'énergie des vecteurs filtrés, et de termes de corrélation entre les vecteurs filtrés pris deux à deux, délivrant un premier vecteur V(δ) ;(b) a sub-step of calculating correlation terms between the filtered vectors and the residual vector, energy terms of the filtered vectors, and correlation terms between the filtered vectors taken two by two, delivering a first vector V (δ);
(c) une sous-étape de présélection, pour la détermination d'un vecteur initial de gain P*(δ)init, des carrés des composantes dudit vecteur, et des produits de ces mêmes composantes prises deux à deux, délivrant un deuxième vecteur βτ(δ)init î(c) a preselection sub-step, for determining an initial gain vector P * (δ) init , squares of the components of said vector, and of the products of these same components taken two by two, delivering a second vector β τ (δ) init î
(2) une étape de sélection de ladite valeur optimale du pas δ, celle-ci correspondant à la voie pour laquelle le produit scalaire desdits premier et deuxième vecteurs V(δ) et Pτ^^init est maximum, et, pour cette valeur optimale de δ, de sélection, dans une table dite de quantification, dudit vecteur de gain optimal βopC , qui est celui de la table pour lequel le produit scalaire dudit premier vecteur V(δ) par chacun des vecteurs de la table est maximal ; (3) une étape de calcul dudit signal vectoriel résiduel prédit, ou vecteur résiduel prédit, à partir d'une part des vecteurs d'excitation filtrés de la sous-trame précédente qui correspondent à ladite valeur optimale de δ précédemment sélectionnée et d'autre part dudit vecteur de gain optimal sélectionné.(2) a step of selecting said optimal value of the step δ, this corresponding to the path for which the scalar product of said first and second vectors V (δ) and Pτ ^^ ini t is maximum, and, for this value optimal of δ, of selection, in a so-called quantification table, of said optimal gain vector β opC , which is that of the table for which the scalar product of said first vector V (δ) by each of the vectors of the table is maximum; (3) a step of calculating said predicted residual vector signal, or predicted residual vector, on the one hand from the filtered excitation vectors of the previous sub-frame which correspond to said optimal value of δ previously selected and on the other part of said selected optimal gain vector.
2. Dans un codeur de parole dit CELP comprenant d'une part un filtre d'analyse à court terme, qui reçoit un signal vocal initial à coder décomposé en sous-trames successives et délivre un signal vectoriel résiduel t (n) définissant l'information de périodicité présente dans le signal vocal initial, et d'autre part un dispositif de prédiction de ce signal résiduel et un circuit d'estimation d'erreur de prédiction par différence entre ce signal vectoriel résiduel t (n) et le signal vectoriel prédit p (n) , dispositif de prédiction comprenant : (A) un circuit de mémorisation de vecteurs, dit dictionnaire adaptatif, contenant les excitations optimales prédites pour la sous-trame précédente ;2. In a so-called CELP speech coder comprising on the one hand a short-term analysis filter, which receives an initial voice signal to be coded broken down into successive sub-frames and delivers a residual vector signal t (n) defining the periodicity information present in the initial speech signal, and on the other hand a device for predicting this residual signal and a circuit for estimating a prediction error by difference between this residual vector signal t (n) and the predicted vector signal p (n), prediction device comprising: (A) a vector storage circuit, called an adaptive dictionary, containing the optimal excitations predicted for the previous sub-frame;
(B) en sortie dudit circuit de mémorisation, une pluralité de voies de calcul d'un vecteur βτ(δ) , prévues en parallèle chacune pour une valeur déterminée d'un pas δ dit de détermination de ladite information de périodicité et comprenant elles-mêmes chacune en série :(B) at the output of said storage circuit, a plurality of channels for calculating a vector β τ (δ), each provided in parallel for a determined value of a step δ said for determining said periodicity information and comprising them - same each in series:
(a) un filtre de réponse impulsionnelle égale à celle du filtre de synthèse construit à partir dudit filtre d'analyse ; (b) un circuit de calcul de termes de corrélation entre les vecteurs filtrés, provenant dudit dictionnaire adaptatif, et ledit vecteur résiduel ou vecteur-cible, de termes d'énergie des vecteurs filtrés et de termes de corrélation entre les vecteurs filtrés pris deux à deux ; (c) un circuit de présélection, par voie, dudit vecteur βτ(δ)init, dont les composantes sont d'une part les composantes d'un vecteur initial de gain P(δ)inic, d'autre part les carrés des composantes dudit vecteur, et enfin les produits de ces mêmes composantes prises deux à deux ; !7(a) an impulse response filter equal to that of the synthesis filter constructed from said analysis filter; (b) a circuit for calculating correlation terms between the filtered vectors, coming from said adaptive dictionary, and said residual vector or target vector, of energy terms of the filtered vectors and of correlation terms between the filtered vectors taken two to of them ; (c) a circuit for preselecting, by channel, said vector β τ (δ) init , the components of which are on the one hand the components of an initial gain vector P (δ) inic , on the other hand the squares of components of said vector, and finally the products of these same components taken two by two; ! 7
(C) un sous-ensemble de calcul et de mémorisation de la valeur optimale dudit pas ;(C) a subset for calculating and storing the optimal value of said step;
(D) une mémoire, dite table de quantification, qui contient les composantes des vecteurs de gain candidats, ainsi que leurs carrés et leurs produits deux à deux ;(D) a memory, called a quantization table, which contains the components of the candidate gain vectors, as well as their squares and their products in pairs;
(E) un commutateur de sélection, en liaison avec ladite valeur optimale du pas, du vecteur optimal V(δ) correspondant composé de termes de corrélation, donnés par les produits scalaires des vecteur filtrés par le vecteur résiduel de termes d'énergie, donnés par les produits scalaires des vecteurs filtrés par eux-mêmes, et de termes de corrélation, donnés par les produits scalaires deux à deux des vecteurs filtrés ;(E) a selection switch, in connection with said optimal value of the step, of the corresponding optimal vector V (δ) composed of correlation terms, given by the scalar products of the vectors filtered by the residual vector of energy terms, given by the dot products of the vectors filtered by themselves, and of correlation terms, given by the dot products two by two of the filtered vectors;
(F) un circuit de sélection, dans ladite table de quantification, de chaque vecteur de gain candidat ; (G) une mémoire de stockage du vecteur de gain ainsi sélectionné ;(F) a circuit for selecting, in said quantization table, each candidate gain vector; (G) a memory for storing the gain vector thus selected;
(H) en sortie de cette mémoire, un amplificateur de la sortie de filtre sélectionnée selon ladite valeur de pas optimal par un commutateur ; (I) un soustracteur d'estimation de ladite erreur de prédiction par différence entre ledit signal résiduel t (n) et le signal prédit p (n) délivré par ledit amplificateur. (H) at the output of this memory, an amplifier of the filter output selected according to said optimum step value by a switch; (I) a subtractor for estimating said prediction error by difference between said residual signal t (n) and the predicted signal p (n) delivered by said amplifier.
PCT/FR1996/001596 1995-10-11 1996-10-11 Signal prediction method and device for a speech coder WO1997014139A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP96934902A EP0796490B1 (en) 1995-10-11 1996-10-11 Signal prediction method and device for a speech coder
JP9514782A JPH11500837A (en) 1995-10-11 1996-10-11 Signal prediction method and apparatus for speech coder
DE69609592T DE69609592T2 (en) 1995-10-11 1996-10-11 METHOD AND DEVICE FOR SIGNAL PREPARATION FOR A VOICE ENCODER

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR9511937A FR2739964A1 (en) 1995-10-11 1995-10-11 Speech signal transmission method requiring reduced data flow rate
FR95/11937 1996-09-25
EP96402030.9 1996-09-25
EP96402030 1996-09-25

Publications (1)

Publication Number Publication Date
WO1997014139A1 true WO1997014139A1 (en) 1997-04-17

Family

ID=26144072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1996/001596 WO1997014139A1 (en) 1995-10-11 1996-10-11 Signal prediction method and device for a speech coder

Country Status (4)

Country Link
EP (1) EP0796490B1 (en)
JP (1) JPH11500837A (en)
DE (1) DE69609592T2 (en)
WO (1) WO1997014139A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0903729A2 (en) * 1997-09-20 1999-03-24 Matsushita Graphic Communication Systems, Inc. Speech coding apparatus and pitch prediction method of input speech signal

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0296763A1 (en) * 1987-06-26 1988-12-28 AT&T Corp. Code excited linear predictive vocoder and method of operation
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0296763A1 (en) * 1987-06-26 1988-12-28 AT&T Corp. Code excited linear predictive vocoder and method of operation
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN ET AL.: "Comparison of pitch prediction and adaptation algorithms in forward and backward adaptive CELP systems", IEE PROCEEDINGS I (COMMUNICATIONS, SPEECH AND VISION), vol. 140, no. 4, August 1993 (1993-08-01), STEVENAGE, GB, pages 240 - 245, XP000389911 *
CUPERMAN: "Low delay speech coding", PROCEEDINGS OF THE ASILOMAR CONFERENCE ON SIGNALS, SYSTEMS AND COMPUTERS, vol. 2, 4 November 1991 (1991-11-04) - 6 November 1991 (1991-11-06), PACIFIC GROVE, CA, US, pages 935 - 939, XP000314435 *
GERSON ET AL.: "Techniques for improving the performance of CELP-type speech coders", IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS, vol. 10, no. 5, 1 June 1992 (1992-06-01), NEW YORK, US, pages 858 - 865, XP000274720 *
VEENEMAN ET AL.: "Efficient multi-tap pitch prediction for stochastic coding", SPEECH AND AUDIO CODING FOR WIRELESS AND NETWORK APPLICATIONS, 1 January 1993 (1993-01-01), BOSTON-DORDRECHT-LONDON, pages 225 - 229, XP000470445 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0903729A2 (en) * 1997-09-20 1999-03-24 Matsushita Graphic Communication Systems, Inc. Speech coding apparatus and pitch prediction method of input speech signal
EP0903729A3 (en) * 1997-09-20 1999-12-29 Matsushita Graphic Communication Systems, Inc. Speech coding apparatus and pitch prediction method of input speech signal
US6243673B1 (en) 1997-09-20 2001-06-05 Matsushita Graphic Communication Systems, Inc. Speech coding apparatus and pitch prediction method of input speech signal

Also Published As

Publication number Publication date
DE69609592D1 (en) 2000-09-07
EP0796490B1 (en) 2000-08-02
JPH11500837A (en) 1999-01-19
DE69609592T2 (en) 2001-03-29
EP0796490A1 (en) 1997-09-24

Similar Documents

Publication Publication Date Title
EP0782128B1 (en) Method of analysing by linear prediction an audio frequency signal, and its application to a method of coding and decoding an audio frequency signal
EP0768770B1 (en) Method and arrangement for the creation of comfort noise in a digital transmission system
CA2182386C (en) Speech coding method using linear prediction and algebraic code excitation
FR2731548A1 (en) DEPTH SEARCHING FIRST IN AN ALGEBRA DIRECTORY FOR RAPID ENCODING OF THE WALL
EP0608174A1 (en) System for predictive encoding/decoding of a digital speech signal by an adaptive transform with embedded codes
EP1692689A1 (en) Optimized multiple coding method
EP0428445B1 (en) Method and apparatus for coding of predictive filters in very low bitrate vocoders
EP3580755A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
EP1692687B1 (en) Transcoding between the indices of multipulse dictionaries used for coding in digital signal compression
JPH06214599A (en) Apparatus and method for enhancement of adaptive pitch pulse used in code-book excitation linear estimation search loop
EP1836699B1 (en) Method and device for carrying out optimized audio coding between two long-term prediction models
JPH1063297A (en) Method and device for voice coding
FR2702075A1 (en) A method of generating a spectral weighting filter of noise in a speech coder.
EP0796490B1 (en) Signal prediction method and device for a speech coder
FR2769117A1 (en) LEARNING PROCESS IN A SPEECH RECOGNITION SYSTEM
EP0573358B1 (en) Variable speed voice synthesizer method and apparatus
EP0616315A1 (en) Digital speech coding and decoding device, process for scanning a pseudo-logarithmic LTP codebook and process of LTP analysis
JP3462464B2 (en) Audio encoding method, audio decoding method, and electronic device
JPH0738116B2 (en) Multi-pulse encoder
WO2011144863A1 (en) Encoding with noise shaping in a hierarchical encoder
EP1192619B1 (en) Audio coding and decoding by interpolation
EP0734013B1 (en) Determination of an excitation vector in a CELP coder
EP0454552A2 (en) Method and apparatus for low bitrate speech coding
FR2760285A1 (en) METHOD AND DEVICE FOR GENERATING A NOISE SIGNAL FOR THE NON-VOICE OUTPUT OF A DECODED SPOKEN SIGNAL
FR2739964A1 (en) Speech signal transmission method requiring reduced data flow rate

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1996934902

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 1997 514782

Kind code of ref document: A

Format of ref document f/p: F

Ref country code: US

Ref document number: 1997 849847

Date of ref document: 19970609

Kind code of ref document: A

Format of ref document f/p: F

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1996934902

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1996934902

Country of ref document: EP