WO2002077977A1 - Method and device for centralised correction of speech tone on a telephone communication network - Google Patents

Method and device for centralised correction of speech tone on a telephone communication network Download PDF

Info

Publication number
WO2002077977A1
WO2002077977A1 PCT/FR2002/001022 FR0201022W WO02077977A1 WO 2002077977 A1 WO2002077977 A1 WO 2002077977A1 FR 0201022 W FR0201022 W FR 0201022W WO 02077977 A1 WO02077977 A1 WO 02077977A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
timbre
filter
correcting
speech
Prior art date
Application number
PCT/FR2002/001022
Other languages
French (fr)
Inventor
Gaël MAHE
André Gilloire
Original Assignee
France Telecom (Sa)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom (Sa) filed Critical France Telecom (Sa)
Publication of WO2002077977A1 publication Critical patent/WO2002077977A1/en

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the subject of the invention is a method and a device for centralized correction of the timbre of speech on a telephone communications network.
  • the invention applies to any type of communication network (fixed, mobile or other) introducing spectral distortions and modifications of the signal level, by means of the appropriate choice of certain parameters.
  • the first distortion is bandpass filtering
  • FIGS. 1a and 1b representing the frequency responses of the transmission and reception systems defined by the ITU.
  • This low-pass filtering mutes the speaker's voice.
  • the signal undergoes only 300-3400Hz bandpass filtering at the transmitter and receiver terminals.
  • This bandpass filtering must comply with a template defined by ITU recommendation P.313.
  • a first state of the art relates to centralized fixed equalization devices.
  • a second state: from there. technique is based on adaptive equalization devices.
  • the device described in US Pat. No. 5,915,235 aims to correct the non-ideal frequency response of a mobile telephone transducer.
  • the equalizer is described as being placed between an analog-digital converter and a CELP (Code Exited Linear Predictive Coding) coder, but can be in the telephone terminal as well as in the network.
  • CELP Code Exited Linear Predictive Coding
  • the first consists in calculating the long-term auto-correlation coefficients R L ⁇ :
  • R LT (n, i) aR ⁇ (nl, i) + (l ⁇ ) R (n, i), (2)
  • R LT (n, i) i lth long-term auto-correlation coefficient in the n th frame R (n, i) i lth autocorrelation coefficient specific to the n th frame, and ⁇ constant smoothing set for example at 0.995. From these coefficients are derived the long term LPC (Linear Predictive Coding) coefficients, which are the coefficients. a whitening filter. At the output of this filter, the signal is filtered by a fixed filter which prints to it the long-term spectral characteristics, ideal, that is to say those it would have at the output of a transducer having the frequency response ideal.
  • LPC Linear Predictive Coding
  • the second method consists in dividing the signal into sub-bands and, for each sub-band, applying a multiplicative gain equal to the ratio between the long-term energies of the inlet of the whitening filter and the outlet of the second filter.
  • multiplicative gain - so as to reach a target energy ... this gain being defined as the ratio between the target energy of the sub-band and the long-term energy (obtained by smoothing the energy signal) in this sub-band.
  • the device does not correct the filtering of the reception system and the analogue reception line.
  • cepstrum of the transmission channel can be estimated by the mean cepstrum of the received signal, the latter being previously whitened by a pre-accentuation filter.
  • This method allows a marked improvement in the performance of speech recognition systems, but is considered to be an “offline” method, 2 to 4 seconds being necessary to estimate the average cepstrum. Therefore she cannot apply to the correction of distortions on speech introduced by the transmission channel of a telephone network.
  • the present invention aims . reproduce the quality of speech transmitted over the communication networks, by providing means for correcting the spectral distortion of the speech signal and the level differences with 'respect to the nominal level desirable for speech perception, distortions and deviations caused by different links in the chain of transmission.
  • the invention relates more particularly to a method for correcting the timbre of speech transmitted in the form of a signal by means of a transmission link of a telephone network, the correction taking place after the analog-digital conversion of the signal in the network, mainly characterized in that it comprises at least one step of pre-equalization of the digital signal by a fixed filter having 'a frequency response in a frequency band Fc-Fh corresponding to the inverse of a deformation reference spectral introduced by the transmission link, with Fc ⁇ 300Hz and Fh> 3150Hz.
  • the spectral distortion taken as reference is characterized, in the case of a connection of a switched telephone network (PSTN), from the cascading of an intermediate reference system (SRI) of the type defined by ITU-T recommendation P.48, and two medium analog lines (transmit and receive).
  • PSTN switched telephone network
  • SRI intermediate reference system
  • ITU-T recommendation P.48 two medium analog lines
  • the spectral deformation taken as reference is that resulting from the cascading of a filter. respecting the efficiency mask of the mobiles in transmission defined by the recommendation P.313 of the ITU, 5 of a line, analog average and. of an IRS receiver system as defined by recommendation ITU-TP.48.
  • the spectral response taken as reference is that resulting from the cascading of a transmitting system
  • the spectral deformation taken as reference is, that resulting from the cascading of a filter respecting the efficiency template of the mobiles in 0 emission defined by recommendation P.313 of l 'And a filter respecting the efficiency template of the mobiles in reception defined by the ITU recommendation P.313.
  • the method of correcting the timbre of the speech further comprises an adapted equalization step in which a filter is used having a frequency response automatically adapted to the actual distortion introduced by the telephone link as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
  • the adapted equalization step comprises: - the detection of a voice activity on the line to trigger a sequence of treatments for the calculation of the coefficients, of the digital filter as a function of the ratio between the reference spectrum and the spectrum corresponding to the long-term spectrum of the signal,
  • the sequence of treatments comprises: .... - -_ le. long-term spectrum calculation of ..signal., in. des-., successive time windows - partially overlapping, this calculation being carried out in the frequency band Fc-Fh,
  • the processing sequence comprises an extrapolation of the module of the frequency response of the adapted equalizer, for the frequencies outside the band Fc-Fh, the frequency response being defined for all the frequencies between 0- 4000Hz.
  • the chain of processing operations furthermore comprises the calculation of the impulse response of the digital filter from the module of the frequency response of the adapted equalizer extrapolated for the frequencies outside the band Fc-Fh.
  • the long-term signal spectrum calculation includes a stiff Fourier transform operation.
  • the calculation of the impulse response of the .filtre consists in calculating the coefficients of the filter by operating an inverse Fourier transform on the modulus of the frequency response, followed by symmetrization, windowing and an offset.
  • the application of a time window corresponds to a smoothing of the initial frequency response calculated.
  • the calculation of the long-term spectrum of the signal in. successive time windows. partially overlapping includes: - signal sampling in a time window, fast Fourier transform (FFT) operation of the sampled signal, calculation of power spectral density, - calculation of average spectral density of power, over a predetermined period.
  • FFT fast Fourier transform
  • the calculation of the average of the power spectral density consists of:
  • N being a predetermined number of time windows, typically but not exclusively the number of time windows in 4 seconds of speech;
  • E [ ⁇ x (f)] n is the spectrum in the long term of x at the n'th frame ⁇ x (f, n) the power spectral density of the nth frame
  • the method further includes an automatic gain control step.
  • the automatic gain control is carried out during the sequence of treatments of the equalization step by choosing a reference spectral density ⁇ ref corresponding to the desired level in reception.
  • the automatic gain control is carried out by amplification of the signal obtained after equalization with a gain ⁇ as a function of the ratio between the power spectral density of the output signal of the reception terminal when a pre -equalization and suitable equalization of the signal and, the power spectral density of the output signal from the reception terminal in the absence of pre-equalization and suitable equalization of the signal.
  • Another object of the invention is a fixed digital filter intended for the correction of the timbre of speech in a telephone transmission network, mainly characterized in that said filter has a frequency response in a frequency band Fc-Fh, corresponding to the inverse of a reference spectral deformation introduced by the link, with Fc ⁇ 300Hz and Fh> 3150Hz.
  • Another object of the invention is a suitable digital filter intended for the correction of the timbre of speech in a telephone transmission network, mainly characterized in that it comprises means for processing the speech signal having a frequency response adapted automatically at the actual distortion .. introduced by the telephone link as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
  • Another object of the invention is a device for correcting the timbre of speech in a telephone transmission network, mainly characterized in that it comprises a fixed filter followed by a suitable filter and means of automatic gain control such as as previously described.
  • FIG. 1b represents the template of the reception system
  • FIG. 2 represents the responses of different lines of analog subscribers
  • FIG. 3 represents a simplified telephone link including correction
  • FIG. 4 represents the functional diagram of a correction device
  • FIG. 6 represents a triangular window applied to the impulse response of the filter
  • FIG. 7 represents the functional diagram of the adapted equalizer
  • FIG. 8 shows the spectral distortion between the signal .. emitted and the signal, received for one. speaker 1 and for speaker 2.. ,
  • the object of the invention is to correct the spectral distortions by centralized processing, that is to say by a device 20 installed in the digital part of the telephone network between the analog-digital converter (law A in the particular case of the European PSTN or ⁇ law in the United States) 12 and digital (law A) -analog 32, as illustrated by the diagram in FIG. 3.
  • the correction device 20 is preceded by a module 21 for converting the digital signal (the law A) in linear and followed by a module for converting the linear signal into law A.
  • FIG. 4 illustrates the correction device according to the invention.
  • a satisfactory correction of the average distortions due to the transmission 10, reception 30 system and to the analog lines 11, 31 is obtained by a pre-equalizer 23.
  • additionally comprises an "equalizer., adapted - 24. and an automatic gain correction (AGC) 25.
  • AGC automatic gain correction
  • the automatic gain control can be either integrated into the adapted equalizer, or make the subject of a separate module.
  • the pre-equalizer 23 is a fixed filter, the frequency response of which on a band Fc-Fh, such that Fc ⁇ 300Hz and Fh> 3150Hz, is the inverse of the overall response of the average analog channel of a telephone link.
  • This medium channel is defined as consisting of two medium subscriber lines and a transmission and reception system which respects the nominal frequency responses defined in the ITU recommendations.
  • Fc is the low frequency equalization limit. It must be less than 300 Hz in order to restore the low-frequency (LF) components of the voice.
  • Fh is for example at 3150Hz.
  • the pre-equalizer 23 having the frequency response shown in FIG. 5 is produced for example by a filter with infinite impulse response IIR, the coefficients of the transfer function at z are:
  • the pre-equalizer 23 compensates for average conditions of transmission.
  • the equalizer is designed so that its frequency response automatically adapts to the actual distortion introduced by the telephone link according to the ratio between a reference spectrum and the long-term spectrum of the signal.
  • s be the speech signal emitted by the speaker, y the signal received at the end of the chain, and h the filter constituted by the complete analog channel (transmission and reception) and the pre-equalizer.
  • ⁇ s is the power spectral density of s, ⁇ y that of y and H the frequency response of h.
  • E [ ⁇ y (f)]
  • E [ ⁇ s (f)] is not known, we approach it by the average spectrum of speech defined by 1UIT, which is called reference spectrum noted ⁇ re f (f) •
  • the frequency response of the adapted equalizer then has as expression:
  • ⁇ y is not known. It is expressed as a function of ⁇ x power spectral density of the output x of the pre-equalizer, in the case where there is no suitable equalizer ,:
  • L_RX is the frequency response of the reception line and S_RX the frequency response of the reception system.
  • S_RX the frequency response of the reception system.
  • the output of the pre-equalizer 23 is analyzed in 32 ms frames, with an overlap of 50%.
  • the adapted equalizer 24 is a RIF 251 filter whose coefficients are adapted to each activity frame voice according to equation (8), as described below and shown in Figure 7.
  • a voice activity frame detector 240 makes it possible to trigger a processing chain corresponding to the functional modules referenced 241 to 251 in FIG. 7 to obtain the coefficients of the filter 251.
  • a window for analyzing the sampled signal 241 is opened.
  • a Fourier transform 242 is applied to the samples.
  • the long-term spectrum of x, E [ ⁇ x ] is first calculated from
  • E [ ⁇ x (f)] n is the long-term spectrum from x to the n th frame ⁇ x (f, n) the power spectral density of the nth frame, and
  • is the number of frames in 4 seconds.
  • ⁇ x is calculated by taking the modulus squared of the fast Fourier transform 242 in FIG. 7.
  • the frequency response of the equalizer 24 is therefore calculated according to equation (8) for the frequencies between F c and F H , the choice having been made to equalize the signal only on this band.
  • outside this frequency band are calculated in a known manner by linear extrapolation 247 of the dB value of
  • the impulse response of the equalizer is calculated by an inverse Fourier transform IFFT 248 of
  • the windowing is followed by an offset so as to obtain a filter of the length of the window, without additional delay.
  • a triangular window of length 11 (samples) is used for this, the coefficients of which are shown in FIG. 6 for an initial impulse response on 256 points.
  • the impulse response of the adapted equalizer is shifted by 123 points to the left. This makes it possible not to delay the signal which would be the case if the zeros in front of the window intervened in the calculation of the output of the filter.
  • This control typically has one or the other of the following two objectives: - normalize the level,
  • the gain control is carried out by the adapted equalizer 24.
  • the choice of ⁇ ref indeed corresponds to a desirable nominal level for speech.
  • the appropriate equalizer automatically corrects the speech level to reach the desired level in reception. ....'.
  • the goal of. the second achievement is to correct the timbre while ensuring conservation of the overall level of speech compared to the same connection without the device.
  • the long-term spectrum of the reception signal must have the same energy with the device as without.
  • the gain ⁇ defined by the theoretical formula is therefore applied to the output of the adapted equalizer 24:
  • ⁇ x (k) is the power spectral density of the output of the pre-equalizer and PRE_EQ (k) the frequency response of the pre-equalizer.
  • the gain is therefore calculated with reduced complexity, since E [ ⁇ x (k)] and
  • the received signal is affected by a strong quantization noise. Indeed, as the attenuation of the reception system is all the stronger the lower the frequency and that, the equalization compensating for this attenuation on the band Fc-Fh, is placed before the reception system, this anticipated equalization induces at the output of the device, differences in level between the high and low frequency components are all the greater as F c is low. Thus, for certain phonemes, the level of the quantization noise during the conversion into A-law is close to that of the mid and high components. After the attenuation of the LF components by the system reception noise is as energetic as the speech signal.
  • the timbre of the voice at reception is much closer to the original with the correction by the device presented than without the device.
  • the adjustment time of the equalizer is very fast: an improvement. of the timbre is perceptible in less than a second and a stable estimate of the equalizer is obtained in less than 4 seconds for most speakers.
  • Figure 8 shows for two speakers the spectral distortion between the received speech signal and the original signal after 4 seconds of speech, in the case of a link composed of an ITU-compliant IRS, of a line , long on transmission and an average line on reception.
  • a zero distortion would be represented by an average flat curve (+++) over the entire frequency band, at around -9dB if the reception level is not changed compared to the system without correction.
  • the distortion is represented in three cases: without correction (dashes), with only pre-equalizer (fine dotted lines) and with the complete device (solid line).
  • the curve in the latter case is not completely flat on the equalized band (250-3150 Hz), but the differences are less than 2.5 dB, which is hardly noticeable.
  • Level correction is here carried out according to the second method (conservation of the overall level).

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

The invention concerns a method and a device for correcting speech tone transmitted in the form of a signal through a telephone network transmission link. The correction being carried out after the analog-to-digital conversion of the signal in the network, and comprises a pre-equalization (23) of the digital signal with a fixed filter having a frequency response in a Fc-Fh frequency band corresponding to the reciprocal of a reference spectral deformation introduced by the telephone link, with Fc < 300Hz and Fh ≥ 3150Hz and an adapted equalization (24) wherein a filter is used having a frequency response automatically adapted to the real distortion introduced by the telephone link based on the ratio between the reference spectrum and a spectrum corresponding to the signal long term spectrum.

Description

PROCEDE ET DISPOSITIF DE CORRECTION CENTRALISEE DU TIMBRE DE LA PAROLE SUR UN RESEAU DE COMMUNICATIONS METHOD AND DEVICE FOR CENTRALIZED CORRECTION OF SPEECH TIMER ON A COMMUNICATIONS NETWORK
TELEPHONIQUESTELEPHONE
L'invention a pour objet un procédé et un dispositif de correction centralisée du timbre de la parole sur un réseau de communications téléphoniques.The subject of the invention is a method and a device for centralized correction of the timbre of speech on a telephone communications network.
L'invention s'applique à tout type de réseau de communication (fixe, mobile ou autre) introduisant des déformations spectrales et des modifications du niveau du signal, moyennant le choix approprié de .certains paramètres .The invention applies to any type of communication network (fixed, mobile or other) introducing spectral distortions and modifications of the signal level, by means of the appropriate choice of certain parameters.
Dans le cas d'un réseau téléphonique filaire, la parole subit deux distorsions spectrales.In the case of a wired telephone network, speech suffers two spectral distortions.
La première distorsion est le filtrage passe-bandeThe first distortion is bandpass filtering
(300-3400Hz) aux extrémités de chaque ligne analogique d'abonné (terminal téléphonique émetteur respectivement récepteur - et point de conversion analogique-numérique - respectivement numérique- analogique) , normalisé sous le . nom de « Système de(300-3400Hz) at the ends of each analog subscriber line (transmitting telephone terminal respectively receiver - and analog-digital conversion point - respectively digital-analog), standardized under. name of "System of
Référence Intermédiaire » (SRI) que l'on trouve défini par la recommanda ion p48 de l'UIT..Intermediate Reference ”(SRI) which is defined by the ITU recommendation p48.
On pourra se reporter aux figures la et 1b représentant les réponses fréquentielles des systèmes d'émission et de réception définis par l'UIT.Reference may be made to FIGS. 1a and 1b representing the frequency responses of the transmission and reception systems defined by the ITU.
Ce filtrage passe-bande dégrade le timbre en atténuant fortement les composantes basse-fréquence de la parole. La deuxième distorsion. est celle introduite par les lignes analogiques elles-mêmes, qui constituent des filtres passe-bas dont la pente est d'autant plus raide que la ligne est longue. Dans un modèle simple de ligne analogique, l'atténuation en dB est proportionnelle à la racine carrée de la fréquence :This bandpass filtering degrades the timbre by strongly attenuating the low-frequency components of speech. The second distortion . is that introduced by the analog lines themselves, which constitute low-pass filters whose slope is all the steeper the longer the line. In a simple line model analog, the attenuation in dB is proportional to the square root of the frequency:
H dB (f ) = dB (m Hz )^ (1)H dB (f) = dB (m Hz) ^ (1)
avec Hdβ(800Hz), valant 3 dB pour les lignes moyennes et 9,5 dB pour les lignes les plus longues.with Hdβ (800Hz), worth 3 dB for medium lines and 9.5 dB for longest lines.
Les réponses fréquentielles de différentes lignes (courte, moyenne et longue) sont représentées sur la figure 2.The frequency responses of different lines (short, medium and long) are shown in Figure 2.
Ce filtrage passe-bas a pour effet d'assourdir la voix du locuteur.This low-pass filtering mutes the speaker's voice.
Dans le cas d'un réseau mobile, le signal subit uniquement un filtrage passe-bande 300-3400Hz au niveau des terminaux émetteur et récepteur. Ce filtrage passe bande doit respecter un gabarit défini par la recommandation P.313 de l'UIT.In the case of a mobile network, the signal undergoes only 300-3400Hz bandpass filtering at the transmitter and receiver terminals. This bandpass filtering must comply with a template defined by ITU recommendation P.313.
Jusqu'à présent la compensation des distorsions spectrales introduites dans le signal de parole par les divers éléments de la liaison téléphonique est réalisée par des dispositifs à base d'égalisation. Celle-ci peut être fixe ou s'adapter en fonction des conditions de transmission.Up to now, the compensation of the spectral distortions introduced into the speech signal by the various elements of the telephone link has been achieved by devices based on equalization. This can be fixed or adapt according to the transmission conditions.
Un premier état de la technique concerne les dispositifs d'égalisation fixe centralisée.A first state of the art relates to centralized fixed equalization devices.
En effet, des dispositifs d'égalisation centralisée ont été proposés dans les brevets US 5333195 et US 5471527. Ces égaliseurs sont des filtres fixes qui restaurent le niveau des basses fréquences atténuées par l'émetteur. Le brevet US 5333195 propose par exemple un gain de 10 à 15 dB sur la bande 100-300Hz. Ces méthodes présentent deux inconvénients : l'égaliseur ne compense que le filtrage de l'émetteur, de sorte qu'à la réception les composantes basse-fréquence restent fortement affaiblies par le filtrage SRI de réception. - Cette égalisation fixe compense des conditions de transmission (ligne et système d'émission) moyennes. Si les conditions réelles sont trop différentes (par exemple si les lignes analogiques sont •' longues) le dispositif ne corrige pas suffisamment le timbre, voire l'altère plus que la liaison sans égalisation.Indeed, centralized equalization devices have been proposed in US patents 5,333,195 and US 5,471,527. These equalizers are fixed filters which restore the level of low frequencies attenuated by the transmitter. US patent 5,333,195, for example, proposes a gain of 10 to 15 dB on the 100-300Hz band. These methods have two drawbacks: the equalizer only compensates for the filtering of the transmitter, so that at reception the low-frequency components remain strongly weakened by the filtering SRI of reception. - This fixed equalization compensates for average transmission conditions (line and transmission system). If the real conditions are too different (for example if the analog lines are long, the device does not correct the timbre enough, or even alters it more than the link without equalization.
, . Un deuxième état: de- la . technique repose sur des dispositifs à égalisation adaptative. Le dispositif décrit dans le brevet US 5915235 vise à corriger la réponse fréquentielle non idéale d'un transducteur de téléphone mobile. L'égaliseur est décrit comme étant placé entre un convertisseur analogique-numérique et un codeur CELP (Code Exited Linear Prédictive Coding) , mais peut être aussi bien dans le terminal téléphonique que dans le réseau.,. A second state: from there. technique is based on adaptive equalization devices. The device described in US Pat. No. 5,915,235 aims to correct the non-ideal frequency response of a mobile telephone transducer. The equalizer is described as being placed between an analog-digital converter and a CELP (Code Exited Linear Predictive Coding) coder, but can be in the telephone terminal as well as in the network.
Deux méthodes sont alors proposées dans ce document :Two methods are then proposed in this document:
- La première consiste à calculer les coefficients d'auto-corrélation à long terme RLτ :- The first consists in calculating the long-term auto-correlation coefficients R L τ:
RLT (n, i) =aR τ (n-l , i) + (l ~ ) R (n, i) , (2)R LT (n, i) = aR τ (nl, i) + (l ~) R (n, i), (2)
Avec : RLT (n, i ) ileme coefficient d'auto-corrélation à long terme à la nième trame, R (n, i) ilème coefficient d'auto-corrélation spécifique à la nleme trame, et α constante de lissage fixée par exemple à 0,995. De ces coefficients sont dérivés les coefficients LPC (Linear Prédictive Coding) à long terme, qui sont les coefficients . d'un filtre blanchisseur. A la sortie de ce filtre, le signal est filtré par un filtre fixe qui lui imprime les caractéristiques spectrales à long terme , idéales, c'est-à-dire celles qu'il aurait à la sortie d'un transducteur ayant la réponse fréquentielle idéale. Ces deux filtres sont complétés par un gain multiplicatif égal au rapport entre les énergies à long terme de l'entrée du filtre blanchisseur et la sortie du deuxième filtre. - La deuxième méthode consiste à diviser le signal en sous-bandes et, pour chaque sous-bande, appliquer unWith: R LT (n, i) i lth long-term auto-correlation coefficient in the n th frame, R (n, i) i lth autocorrelation coefficient specific to the n th frame, and α constant smoothing set for example at 0.995. From these coefficients are derived the long term LPC (Linear Predictive Coding) coefficients, which are the coefficients. a whitening filter. At the output of this filter, the signal is filtered by a fixed filter which prints to it the long-term spectral characteristics, ideal, that is to say those it would have at the output of a transducer having the frequency response ideal. These two filters are supplemented by a multiplicative gain equal to the ratio between the long-term energies of the inlet of the whitening filter and the outlet of the second filter. - The second method consists in dividing the signal into sub-bands and, for each sub-band, applying a
.gain multiplicatif- de manière,, à atteindre une énergie cible,... ce gain étant défini comme le rapport entre l'énergie cible de la sous-bande et l'énergie à long terme (obtenue par un lissage de l'énergie instantanée) du signal dans cette sous-bande.multiplicative gain - so as to reach a target energy, ... this gain being defined as the ratio between the target energy of the sub-band and the long-term energy (obtained by smoothing the energy signal) in this sub-band.
Ces deux méthodes présentent l'inconvénient de ne corriger que la réponse non idéale du système d'émission et non celle du système de réception.These two methods have the drawback of only correcting the non-ideal response of the transmission system and not that of the reception system.
- Le dispositif décrit dans le brevet FR 9408741- The device described in patent FR 9408741
(US 5905969) a pour objet de compenser le filtrage du système d'émission et de la ligne d'abonné d'émission pour améliorer la reconnaissance centralisée de la parole et/ou la qualité de la parole transmise. Comme le représente la figure 3a de ce brevet, le spectre du signal est divisé en 24 sous-bandes et chaque énergie de sous-bande est multipliée par un gain adaptatif. Une adaptation du gain est réalisée selon l'algorithme du gradient stochastique, par minimisation de l'erreur quadratique, l'erreur étant définie comme la différence entre l'énergie de sous-bande et une énergie de référence définie pour chaque sous-bande. L'énergie de référence est modulée à chaque trame par l'énergie globale de la trame courante, de manière à respecter les variations naturelles de niveau à court terme du signal de parole. La convergence de l'algorithme permet d'obtenir en sortie les 24 signaux de sous-bande égalisés.(US 5905969) aims to compensate for the filtering of the transmission system and of the transmission subscriber line in order to improve the centralized recognition of the speech and / or the quality of the transmitted speech. As shown in Figure 3a of this patent, the signal spectrum is divided into 24 sub-bands and each sub-band energy is multiplied by an adaptive gain. An adaptation of the gain is carried out according to the algorithm of the stochastic gradient, by minimization of the quadratic error, the error being defined as the difference between the energy of sub-band and a reference energy defined for each sub-band. The reference energy is modulated with each frame by the energy overall of the current frame, so as to respect the natural variations in short-term level of the speech signal. The convergence of the algorithm allows the 24 equalized sub-band signals to be output.
Le dispositif ne corrige pas le filtrage du système de réception et de la ligne analogique de réception.The device does not correct the filtering of the reception system and the analogue reception line.
Ce brevet ne mentionne pas de résultats en termes d'amélioration de la qualité vocale et reconnaît que la méthode est sous-optimale, car on opère une transformation dans le domaine fréquentiel avec une erreur . due à l'opération de., .convolution . circulaire implicite liée à cette transformation.This patent does not mention results in terms of improvement of the voice quality and recognizes that the method is sub-optimal, because one operates a transformation in the frequency domain with an error. due to the operation of., .convolution. implicit circular linked to this transformation.
En outre, il y a une oscillation du système autour de la solution optimale liée au fait que la correction est réalisée par un algorithme adaptatif en boucle fermée (boucle de rétroaction) .In addition, there is an oscillation of the system around the optimal solution linked to the fact that the correction is carried out by an adaptive closed-loop algorithm (feedback loop).
Une compensation de l'effet de ligne est décrite dans l'article « On line adaptation of a speech recognizer to variation in téléphone lines conditions », Eurospeech, pp 1247-1250, sept.1993 de C.Mokbel, J.Monné and D. Jouvet par la méthode de la soustraction cepstrale, dans le but d'améliorer la robustesse de la reconnaissance de la parole.Line effect compensation is described in the article "On line adaptation of a speech recognizer to variation in telephone lines conditions", Eurospeech, pp 1247-1250, Sep 1993 by C. Mokbel, J. Monné and D Jouvet by the cepstral subtraction method, in order to improve the robustness of speech recognition.
On montre dans ce document que le cepstre du canal de transmission peut être estimé par le cepstre moyen du signal reçu, celui-ci étant préalablement blanchi par un filtre de pré-accentuâtion. Cette méthode permet une nette amélioration des performances des systèmes de reconnaissance de la parole, mais est considérée comme une méthode « off- line », 2 à 4 secondes étant nécessaires pour estimer le cepstre moyen. Elle ne peut pas par conséquent s', appliquer à la correction des distorsions sur la parole introduites par le canal de transmission d'un réseau téléphonique.It is shown in this document that the cepstrum of the transmission channel can be estimated by the mean cepstrum of the received signal, the latter being previously whitened by a pre-accentuation filter. This method allows a marked improvement in the performance of speech recognition systems, but is considered to be an “offline” method, 2 to 4 seconds being necessary to estimate the average cepstrum. Therefore she cannot apply to the correction of distortions on speech introduced by the transmission channel of a telephone network.
La présente invention a pour but l'.amélioration de la qualité de la parole transmise sur les réseaux de communication, en offrant des moyens pour corriger les déformations spectrales du signal de parole et les écarts de niveau par 'rapport au niveau nominal souhaitable pour la perception de la parole, déformations et écarts provoqués par différents maillons de .la chaîne de transmission.The present invention aims .amélioration the quality of speech transmitted over the communication networks, by providing means for correcting the spectral distortion of the speech signal and the level differences with 'respect to the nominal level desirable for speech perception, distortions and deviations caused by different links in the chain of transmission.
L'invention a plus particulièrement pour objet un procédé de correction du timbre de la parole transmise sous la forme d'un signal au moyen d'une liaison de transmission d'un réseau téléphonique, la correction ayant lieu après la conversion analogique-numérique du signal dans le réseau, principalement caractérisé en ce qu'il comprend au moins une étape de pré-égalisation du signal numérique par un filtre fixe ayant' une réponse fréquentielle dans une bande de fréquences Fc-Fh correspondant à l'inverse d'une déformation spectrale de référence introduite par la liaison de transmission, avec Fc < 300Hz et Fh > 3150Hz.The invention relates more particularly to a method for correcting the timbre of speech transmitted in the form of a signal by means of a transmission link of a telephone network, the correction taking place after the analog-digital conversion of the signal in the network, mainly characterized in that it comprises at least one step of pre-equalization of the digital signal by a fixed filter having 'a frequency response in a frequency band Fc-Fh corresponding to the inverse of a deformation reference spectral introduced by the transmission link, with Fc <300Hz and Fh> 3150Hz.
Selon une autre caractéristique, la déformation spectrale prise comme référence est caractérisée, dans le cas d'une liaison d'un réseau de téléphonie commutée (RTC) , à partir de la mise en cascade d'un système de référence intermédiaire (SRI) du type défini par la recommandation UIT-T P.48, et de deux lignes analogiques moyennes (émission et réception) .According to another characteristic, the spectral distortion taken as reference is characterized, in the case of a connection of a switched telephone network (PSTN), from the cascading of an intermediate reference system (SRI) of the type defined by ITU-T recommendation P.48, and two medium analog lines (transmit and receive).
Dans le cas où le terminal émetteur est un téléphone mobile et le terminal récepteur est un poste fixe, la déformation spectrale prise comme référence est celle résultant de la mise en cascade d'un filtre .respectant le gabarit d'efficacité des mobiles en émission défini par la recommandation P.313 de l'UIT, 5 d'une ligne, analogique moyenne et. d'un système récepteur du SRI tel que défini par la recommandation UIT-TP.48.In the case where the sending terminal is a mobile telephone and the receiving terminal is an extension fixed, the spectral deformation taken as reference is that resulting from the cascading of a filter. respecting the efficiency mask of the mobiles in transmission defined by the recommendation P.313 of the ITU, 5 of a line, analog average and. of an IRS receiver system as defined by recommendation ITU-TP.48.
Dans le cas où le terminal émetteur est un poste fixe et le terminal récepteur est un téléphone mobile, 0 la réponse spectrale prise comme référence est celle résultant de la mise en cascade d'un système émetteurIn the case where the transmitting terminal is a landline and the receiving terminal is a mobile phone, 0 the spectral response taken as reference is that resulting from the cascading of a transmitting system
_. du SRI , tel ..que. défini par la recommandation. UIT-TP.4.8,_. IRS, such .. as. defined by the recommendation. ITU-TP.4.8,
'..•• ••" d'une - ligne ..analogique moyenne et d'un . filtre respectant le gabarit d'efficacité des mobiles en 5 réception défini par la recommandation P.313 de l'UIT. ' .. • • • • "of - an average analog line and of a filter respecting the efficiency template of the mobiles in reception 5 defined by the recommendation P.313 of the ITU.
Dans le cas d'une liaison entre terminaux mobiles, la déformation spectrale prise comme référence est, celle résultant de la mise en cascade d'un filtre respectant le gabarit d'efficacité des mobiles en 0 émission défini par la recommandation P.313 de l'UIT et d'un filtre respectant le gabarit d'efficacité des mobiles en réception défini par la recommandation P.313 de l'UIT.In the case of a link between mobile terminals, the spectral deformation taken as reference is, that resulting from the cascading of a filter respecting the efficiency template of the mobiles in 0 emission defined by recommendation P.313 of l 'And a filter respecting the efficiency template of the mobiles in reception defined by the ITU recommendation P.313.
Selon une autre caractéristique, le procédé de 5 correction du timbre de la parole comporte en outre une étape d'égalisation adaptée dans laquelle on utilise un filtre ayant une réponse fréquentielle adaptée automatiquement à la distorsion réelle introduite par la liaison téléphonique en fonction du rapport entre un 0 spectre de référence et un spectre correspondant au spectre à long terme du signal .According to another characteristic, the method of correcting the timbre of the speech further comprises an adapted equalization step in which a filter is used having a frequency response automatically adapted to the actual distortion introduced by the telephone link as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
Selon une autre caractéristique, l'étape d'égalisation adaptée comprend : - la détection d'une activité vocale sur- la ligne pour déclencher un enchaînement de traitements pour le calcul des coefficients, du filtre numérique en fonction du rapport entre le spectre de référence et le spectre correspondant au spectre à long terme du signal,According to another characteristic, the adapted equalization step comprises: - the detection of a voice activity on the line to trigger a sequence of treatments for the calculation of the coefficients, of the digital filter as a function of the ratio between the reference spectrum and the spectrum corresponding to the long-term spectrum of the signal,
- la commande du filtre avec les coefficients obtenus et l'actualisation desdits coefficients,- controlling the filter with the coefficients obtained and updating said coefficients,
- le filtrage du signal sortant du pré-égaliseur par ledit filtre. Selon une autre caractéristique, l'enchaînement de traitements comprend : .... - -_ le. calcul du spectre à .long terme du ..signal., dans. des-., fenêtres temporelles successives -se recouvrant partiellement, ce calcul étant réalisé dans la bande de fréquences Fc-Fh,the filtering of the signal leaving the pre-equalizer by said filter. According to another characteristic, the sequence of treatments comprises: .... - -_ le. long-term spectrum calculation of ..signal., in. des-., successive time windows - partially overlapping, this calculation being carried out in the frequency band Fc-Fh,
- le calcul du module de la réponse fréquentielle de l'égaliseur adapté en effectuant le rapport de la racine carrée du spectre à long terme obtenu dans une fenêtre temporelle, à la racine carrée du spectre de référence, la racine carrée du spectre de référence étant compensé à chaque fréquence par un facteur prédéterminé A(f) fonction de la fréquence.- the calculation of the modulus of the frequency response of the adapted equalizer by carrying out the ratio of the square root of the long-term spectrum obtained in a time window, to the square root of the reference spectrum, the square root of the reference spectrum being compensated at each frequency by a predetermined factor A (f) depending on the frequency.
Selon une autre caractéristique, l'enchaînement de traitements comprend une extrapolation du module de la réponse fréquentielle de l'égaliseur adapté, pour les fréquences en dehors de la bande Fc-Fh, la réponse fréquentielle étant définie pour toutes les fréquences comprises entre 0-4000Hz.According to another characteristic, the processing sequence comprises an extrapolation of the module of the frequency response of the adapted equalizer, for the frequencies outside the band Fc-Fh, the frequency response being defined for all the frequencies between 0- 4000Hz.
L'enchaînement de traitements comprend en outre le calcul de la réponse impulsionnelle du filtre numérique à partir du module de la réponse fréquentielle de l'égaliseur adapté extrapolé pour les fréquences en dehors de la bande Fc-Fh. Le calcul du spectre du signal à long terme comprend une opération de transformée de Fourier ra ide .The chain of processing operations furthermore comprises the calculation of the impulse response of the digital filter from the module of the frequency response of the adapted equalizer extrapolated for the frequencies outside the band Fc-Fh. The long-term signal spectrum calculation includes a stiff Fourier transform operation.
Le calcul de la réponse impulsionnelle du .filtre consiste à calculer les coefficients du filtre en opérant une transformée de Fourier inverse sur le module de la réponse fréquentielle, suivie d'une symétrisation, d'un fenêtrage et d'un décalage.The calculation of the impulse response of the .filtre consists in calculating the coefficients of the filter by operating an inverse Fourier transform on the modulus of the frequency response, followed by symmetrization, windowing and an offset.
L'application d'une fenêtre temporelle correspond à un lissage de la réponse fréquentielle initiale calculée. ...Le calcul du spectre à long terme du signal dans des. fenêtres temporelles successives se. recouvrant partiellement comprend : - l'échantillonnage du signal dans une fenêtre temporelle, l'opération de transformée de Fourier rapide (FFT) du signal échantillonné, le calcul de la densité spectrale de puissance, - le calcul de la moyenne de la densité spectrale de puissance, sur une durée prédéterminée. Avantageusement, le calcul de la moyenne de la densité spectrale de puissance consiste :The application of a time window corresponds to a smoothing of the initial frequency response calculated. ... The calculation of the long-term spectrum of the signal in. successive time windows. partially overlapping includes: - signal sampling in a time window, fast Fourier transform (FFT) operation of the sampled signal, calculation of power spectral density, - calculation of average spectral density of power, over a predetermined period. Advantageously, the calculation of the average of the power spectral density consists of:
- pour les N premières fenêtres temporelles à partir de la détection de présence de parole dans le signal, à calculer la moyenne arithmétique des densités spectrales de puissance de toutes les fenêtres temporelles écoulées depuis ladite détection, N étant un nombre de fenêtre temporelles prédéterminé, typiquement mais non exclusivement le nombre de fenêtres temporelles dans 4 secondes de parole ;for the first N time windows from the detection of the presence of speech in the signal, calculating the arithmetic mean of the power spectral densities of all the time windows elapsed since said detection, N being a predetermined number of time windows, typically but not exclusively the number of time windows in 4 seconds of speech;
- pour les fenêtres temporelles suivantes, à ajuster la moyenne de la densité spectrale de puissance calculée à la fenêtre temporelle précédente par un lissage rêcursif du premier ordre tenant compte de la densité spectrale de puissance de la fenêtre temporelle courante. Cela se traduit par la formule générique suivante :- for the following time windows, to adjust the average of the spectral density of power calculated at the previous time window by a first order recursive smoothing taking into account the power spectral density of the current time window. This results in the following generic formula:
E[γx(f)]n = α(n)γx(f,n) + (l-α(n))E[γχ(f)]n-i' (9)E [γ x (f ) ] n = α (n) γ x (f, n) + (l-α (n)) E [γχ (f)] ni ' (9)
où E[γx(f)]n est le spectre' à long terme de x à la nième trame γx(f,n) la densité spectrale de puissance de la nième trame, etwhere E [γ x (f)] n is the spectrum in the long term of x at the n'th frame γ x (f, n) the power spectral density of the nth frame, and
α(n) = mι.n }(«, Nλ)α (n) = mι.n} (", N λ )
Le procédé comprend en outre une étape de contrôle automatique du gain.The method further includes an automatic gain control step.
Selon un mode de réalisation, le contrôle automatique du gain est réalisé durant l'enchaînement des traitements de l'étape d'égalisation en choisissant une densité spectrale de référence γref correspondant au niveau souhaité en réception.According to one embodiment, the automatic gain control is carried out during the sequence of treatments of the equalization step by choosing a reference spectral density γ ref corresponding to the desired level in reception.
Selon un autre mode de réalisation, le contrôle automatique du gain est réalisé par amplification du signal obtenu après égalisation avec un gain α fonction du rapport entre la densité spectrale de puissance du signal de sortie du terminal de réception lorsque l'on a effectué une pré-égalisation et une égalisation adaptée du signal et, la densité spectrale de puissance du signal de sortie du terminal de réception en l'absence de pré-égalisation et d'égalisation adaptée du signal.According to another embodiment, the automatic gain control is carried out by amplification of the signal obtained after equalization with a gain α as a function of the ratio between the power spectral density of the output signal of the reception terminal when a pre -equalization and suitable equalization of the signal and, the power spectral density of the output signal from the reception terminal in the absence of pre-equalization and suitable equalization of the signal.
Un autre objet de l'invention est un filtre numérique fixe destiné à la correction du timbre de la parole dans un réseau de transmission téléphonique, principalement caractérisé en ce que ledit.filtre a une réponse fréquentielle dans une bande de fréquences Fc- Fh, correspondant à l'inverse d'une déformation spectrale de référence introduite par la liaison, avec Fc < 300Hz et Fh > 3150Hz.Another object of the invention is a fixed digital filter intended for the correction of the timbre of speech in a telephone transmission network, mainly characterized in that said filter has a frequency response in a frequency band Fc-Fh, corresponding to the inverse of a reference spectral deformation introduced by the link, with Fc <300Hz and Fh> 3150Hz.
Un autre objet de l'invention est un filtre numérique adapté destiné à la correction du timbre de la parole dans un réseau de transmission téléphonique, principalement caractérisé en ce qu'il comprend des moyens de traitement du signal de parole ayant une réponse fréquentielle adaptée automatiquement à la distorsion.. réelle... ..introduite ... par la.... liaison téléphonique en fonction du rapport entre .un-spectre -de référence et un spectre correspondant au spectre à long terme du signal .Another object of the invention is a suitable digital filter intended for the correction of the timbre of speech in a telephone transmission network, mainly characterized in that it comprises means for processing the speech signal having a frequency response adapted automatically at the actual distortion .. introduced by the telephone link as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
Un autre objet de l'invention est un dispositif de correction du timbre de la parole dans un réseau de transmission téléphonique, principalement caractérisé en ce qu'il comprend un filtre fixe suivi d'un filtre adapté et des moyens de contrôle automatique du gain tels que décrits précédemment.Another object of the invention is a device for correcting the timbre of speech in a telephone transmission network, mainly characterized in that it comprises a fixed filter followed by a suitable filter and means of automatic gain control such as as previously described.
D'autres particularités et avantages de l'invention apparaîtront clairement à la lecture de la description qui est faite ci-après et qui est donnée à titre d'exemple non limitatif et en regard des dessins sur lesquels : la figure la représente le gabarit du système d'émission, - la figure lb représente le gabarit du système de réception, - la figure 2 représente les réponses de différentes lignes d'abonnés analogiques, - la figure 3 représente une liaison téléphonique simplifiée incluant la correction, la figure 4 représente le schéma fonctionnel d'un dispositif de correction, - La figure 5 représente la réponse fréquentielle du pré-égaliseur pour Fc=250Hz,Other features and advantages of the invention will become clear on reading the description which is given below and which is given by way of non-limiting example and with reference to the drawings in which: the figure represents the template of the transmission system, - Figure 1b represents the template of the reception system, - Figure 2 represents the responses of different lines of analog subscribers, FIG. 3 represents a simplified telephone link including correction, FIG. 4 represents the functional diagram of a correction device, - FIG. 5 represents the frequency response of the pre-equalizer for Fc = 250 Hz,
- La figure 6 représente une fenêtre triangulaire appliquée à la réponse impulsionnelle du filtre,FIG. 6 represents a triangular window applied to the impulse response of the filter,
- La figure 7 représente le schéma fonctionnel de l'égaliseur adapté,FIG. 7 represents the functional diagram of the adapted equalizer,
- La figure 8 représente la distorsion spectrale entre le signal .. émis et le signal, reçu pour un . locuteur 1 et pour un locuteur 2. . , - Figure 8 shows the spectral distortion between the signal .. emitted and the signal, received for one. speaker 1 and for speaker 2.. ,
La description qui en est donnée dans la suite fait explicitement référence à la transmission de la parole sur lignes téléphoniques « classiques » (c'est-à-dire filaires) , mais bien entendu comme cela a été dit l'invention s'applique à tout type de réseau de communication (fixe, mobile ou autre) introduisant des déformations spectrales et des modifications du niveau du signal, moyennant le choix approprié de certains paramètres .The description given hereinafter makes explicit reference to the transmission of speech over “conventional” telephone lines (that is to say wired lines), but of course as has been said the invention applies to any type of communication network (fixed, mobile or other) introducing spectral distortions and changes in the signal level, subject to the appropriate choice of certain parameters.
L'objet de l'invention est de corriger les distorsions spectrales par un traitement centralisé, c'est-à-dire par un dispositif 20 installé dans la partie numérique du réseau téléphonique entre le convertisseur analogique-numérique (loi A dans le cas particulier du RTC européen ou loi μ aux Etats-Unis) 12 et numérique (loi A) -analogique 32, comme illustré par le schéma de la figure 3. Le dispositif de correction 20 est précédé par un module 21 de conversion du signal numérique (la loi A ) en linéaire et suivi par un module de conversion du signal linéaire en loi A. La figure 4 illustre le dispositif de correction selon l'invention.The object of the invention is to correct the spectral distortions by centralized processing, that is to say by a device 20 installed in the digital part of the telephone network between the analog-digital converter (law A in the particular case of the European PSTN or μ law in the United States) 12 and digital (law A) -analog 32, as illustrated by the diagram in FIG. 3. The correction device 20 is preceded by a module 21 for converting the digital signal (the law A) in linear and followed by a module for converting the linear signal into law A. FIG. 4 illustrates the correction device according to the invention.
Une correction satisfaisante des distorsions moyennes dues au système émission 10, réception 30 et aux lignes analogiques 11, 31 est obtenue par un préégaliseur 23.A satisfactory correction of the average distortions due to the transmission 10, reception 30 system and to the analog lines 11, 31 is obtained by a pre-equalizer 23.
Afin de tenir compte du fait que les conditions de transmission ne sont pas toujours des conditions moyennes de transmission, • (les lignes utilisées ne sont pas toujours de longueur moyenne et les systèmes d'émission et de réception peuvent s'écarter des recommandations de l'UIT) , le dispositif de correctionIn order to take account of the fact that the transmission conditions are not always average transmission conditions, • (the lines used are not always of average length and the transmission and reception systems may deviate from the recommendations of ITU), the correction system
^comporte en outre un" égaliseur., adapté - 24. et une correction automatique de gain (CAG) 25. Comme on le verra dans la suite le contrôle automatique du gain peut être soit intégré à l'égaliseur adapté, soit faire l'objet d'un module séparé. ^ additionally comprises an "equalizer., adapted - 24. and an automatic gain correction (AGC) 25. As will be seen hereinafter, the automatic gain control can be either integrated into the adapted equalizer, or make the subject of a separate module.
Le pré-égaliseur 23 est un filtre fixe dont la réponse fréquentielle sur une bande Fc-Fh, telle que Fc < 300Hz et Fh > 3150Hz, est l'inverse de la réponse globale du canal analogique moyen d'une liaison téléphonique. Ce canal moyen est défini comme étant constitué de deux lignes d'abonné moyennes et d'un système d' émission et de réception respectant les réponses fréquentielles nominales définies dans les recommandations de l'UIT.The pre-equalizer 23 is a fixed filter, the frequency response of which on a band Fc-Fh, such that Fc <300Hz and Fh> 3150Hz, is the inverse of the overall response of the average analog channel of a telephone link. This medium channel is defined as consisting of two medium subscriber lines and a transmission and reception system which respects the nominal frequency responses defined in the ITU recommendations.
Fc est la fréquence basse limite d'égalisation. Elle doit être inférieure à 300 Hz de manière à restaurer les composantes basse-fréquence (BF) de la voix.Fc is the low frequency equalization limit. It must be less than 300 Hz in order to restore the low-frequency (LF) components of the voice.
Fh est par exemple à 3150Hz.Fh is for example at 3150Hz.
La figure 5 représente la réponse fréquentielle typique du pré-égaliseur pour Fc=250 Hz. Cette réponse est calculée à partir des modèles du SRI et de la « ligne moyenne ».FIG. 5 represents the typical frequency response of the pre-equalizer for Fc = 250 Hz. This response is calculated from the SRI and “average line” models.
Le pré-égaliseur 23 ayant la réponse fréquentielle représentée sur la figure 5 est réalisé par exemple par un filtre à réponse impulsionnelle infinie IIR, dont les coefficients de la fonction de transfert en z sont :The pre-equalizer 23 having the frequency response shown in FIG. 5 is produced for example by a filter with infinite impulse response IIR, the coefficients of the transfer function at z are:
Figure imgf000015_0001
Figure imgf000015_0001
Comme on vient de le voir, le pré-égaliseur 23 compense des conditions moyennes de transmission. A s we have seen, the pre-equalizer 23 compensates for average conditions of transmission.
Il peut être utilisé seul. Cependant s'il est utilisé seul et qu'une des lignes analogiques est longue, la voix paraît assourdie à la réception. Si au contraire une ligne est très courte, les composantes haute fréquence sont trop présentes. D'autres distorsions du timbre peuvent apparaître si les systèmes d'émission et de réception ont des réponses fréquentielles trop éloignées des spécifications de l'UIT. C'est pourquoi la pré-égalisation est complétée par un égaliseur adapté, qui adapte la correction de manière plus précise aux conditions réelles de transmission. L'égaliseur est conçu pour que sa réponse fréquentielle s'adapte automatiquement à la distorsion réelle introduite par la liaison téléphonique en fonction du rapport entre un spectre de référence et le spectre à long terme du signal .It can be used alone. However, if used alone and one of the analog lines is long, the voice seems muted at the reception. If on the contrary a line is very short, the high frequency components are too present. Other distortions of the timbre can appear if the emission and reception systems have frequency responses too far from the ITU specifications. This is why the pre-equalization is completed by an adapted equalizer, which adapts the correction more precisely to the real transmission conditions. The equalizer is designed so that its frequency response automatically adapts to the actual distortion introduced by the telephone link according to the ratio between a reference spectrum and the long-term spectrum of the signal.
Le principe en est le suivant :The principle is as follows:
Soient s le signal de parole émis par le locuteur, y le signal reçu en bout de chaîne, et h le filtre constitué par le canal analogique complet (émission et réception) et le pré-égaliseur.Let s be the speech signal emitted by the speaker, y the signal received at the end of the chain, and h the filter constituted by the complete analog channel (transmission and reception) and the pre-equalizer.
D'après la formule des interférences,According to the interference formula,
γy (f) = | H(f) |2. γs(f), (3)γ y (f) = | H (f) | 2 . γ s (f), (3)
où γs est la densité spectrale de puissance de s, γy celle de y et H la réponse fréquentielle de h.where γ s is the power spectral density of s, γ y that of y and H the frequency response of h.
Si le canal est supposé invariant dans le temps,If the channel is assumed to be time invariant,
E[γy(f)]= | H(f)|2. E[γs(f)], (4), où E désigne la moyenne. Comme E[γs(f)] n'est pas connu, on l'approche par le spectre moyen de la parole défini par 1UIT, que l'on appelle spectre de référence noté γref(f) •E [γ y (f)] = | H (f) | 2 . E [γ s (f)], (4), where E denotes the mean. As E [γ s (f)] is not known, we approach it by the average spectrum of speech defined by 1UIT, which is called reference spectrum noted γ re f (f) •
Ainsi on estime la réponse fréquentielle du filtre par :Thus the frequency response of the filter is estimated by:
Figure imgf000016_0001
Figure imgf000016_0001
La réponse fréquentielle de l ' égaliseur adapté a alors pour expression :The frequency response of the adapted equalizer then has as expression:
Figure imgf000016_0002
Comme l'égaliseur est centralisé dans le réseau, γy n'est pas connu. On l'exprime en fonction de γx densité spectrale de puissance de la sortie x du pré- égalisateur, dans le cas où il n'y aurait pas d' égalisateur adapté,:
Figure imgf000016_0002
As the equalizer is centralized in the network, γ y is not known. It is expressed as a function of γ x power spectral density of the output x of the pre-equalizer, in the case where there is no suitable equalizer ,:
Figure imgf000017_0001
Figure imgf000017_0001
où L_RX est la réponse fréquentielle de la ligne de réception et S_RX la réponse fréquentielle du système de réception. Comme ces réponses sont inconnues à priori, on les approche par les réponses d'une ligne moyenne et d'un système de réception respectant la spécification de l'UIT, et notées respectivement L_RXo et S_RXo. La réponse fréquentielle de l' égalisateur adaptée recherchée est alors :where L_RX is the frequency response of the reception line and S_RX the frequency response of the reception system. As these responses are unknown a priori, they are approached by the responses of a mean line and of a reception system respecting the specification of the ITU, and denoted respectively L_RXo and S_RXo. The frequency response of the adapted equalizer sought is then:
Figure imgf000017_0002
Figure imgf000017_0002
On voit dans cette formule que la racine carrée du spectre de référence γref est pondéré par le facteur de compensation A(f) du fait de la correction déjà effectuée par le pré-égaliseur. Ce facteur est fonction de la fréquence comme indiqué ci-dessous :We see in this formula that the square root of the reference spectrum γ ref is weighted by the compensation factor A (f) due to the correction already made by the pre-equalizer. This factor is a function of the frequency as shown below:
Figure imgf000017_0003
Figure imgf000017_0003
Dans une réalisation préférée, la sortie du préégaliseur 23 est analysée par trames de 32 ms, avec un recouvrement de 50 %.In a preferred embodiment, the output of the pre-equalizer 23 is analyzed in 32 ms frames, with an overlap of 50%.
L'égaliseur 24 adapté est un filtre RIF 251 dont les coefficients sont adaptés à chaque trame d'activité vocale selon l'équation (8), comme décrit ci-après et représenté sur la figure 7.The adapted equalizer 24 is a RIF 251 filter whose coefficients are adapted to each activity frame voice according to equation (8), as described below and shown in Figure 7.
Un détecteur de trames d'activité vocale 240 permet de déclencher une- chaîne de traitements correspondant aux modules fonctionnels référencés 241 à 251 sur la figure 7 pour obtenir les coefficients du filtre 251.A voice activity frame detector 240 makes it possible to trigger a processing chain corresponding to the functional modules referenced 241 to 251 in FIG. 7 to obtain the coefficients of the filter 251.
Une fenêtre d'analyse du signal échantillonné 241 est ouverte. Une transformée de Fourier 242 est appliquée sur les échantillons. Typiquement, mais non exclusivement, le spectre à long terme de x, E[γx], est d'abord calculé à partir deA window for analyzing the sampled signal 241 is opened. A Fourier transform 242 is applied to the samples. Typically, but not exclusively, the long-term spectrum of x, E [γ x ], is first calculated from
1_' instant initial d'activité vocale) par moyennage 244 de γx sur une fenêtre temporelle croissant de 0 à 4 secondes, puis ajusté récursivement à chaque trame suivante, ce qui se traduit par la formule générique suivante :1_ 'initial instant of vocal activity) by averaging 244 of γ x over a time window increasing from 0 to 4 seconds, then recursively adjusted for each subsequent frame, which results in the following generic formula:
E[γx(f)]n = α(n)γx(f,n) + (l-α(n))E[γx(f)]n.1- (9)E [γ x (f)] n = α (n) γ x (f, n) + (l-α (n)) E [γ x (f)] n . 1 - (9)
où E[γx(f)]n est le spectre à long terme de x à la nlème trame γx(f,n) la densité spectrale de puissance de la nième trame, etwhere E [γ x (f)] n is the long-term spectrum from x to the n th frame γ x (f, n) the power spectral density of the nth frame, and
α(n) ≈ l mm(n,N)α (n) ≈ l mm (n, N)
où Ν est le nombre de trames dans 4 secondes .where Ν is the number of frames in 4 seconds.
En pratique γx est calculé en prenant le module au carré de la transformée de Fourier rapide 242 sur la figure 7. La réponse fréquentielle de l'égaliseur 24 est donc calculée selon l'équation (8) pour les fréquences comprises entre Fc et FH, le choix ayant été fait de n'égaliser le signal que sur cette bande. Les valeurs de |EQ| hors de cette bande de fréquences sont calculées de manière connue par extrapolation linéaire 247 de la valeur en dB de |EQ|[FC-In practice γ x is calculated by taking the modulus squared of the fast Fourier transform 242 in FIG. 7. The frequency response of the equalizer 24 is therefore calculated according to equation (8) for the frequencies between F c and F H , the choice having been made to equalize the signal only on this band. The values of | EQ | outside this frequency band are calculated in a known manner by linear extrapolation 247 of the dB value of | EQ | [ FC -
FH] • La réponse impulsionnelle de l'égaliseur est calculée par une transformée de Fourier inverse IFFT 248 de |EQ| suivie d'une symétrisation 249, de manière à obtenir un filtre à phase linéaire.FH] • The impulse response of the equalizer is calculated by an inverse Fourier transform IFFT 248 of | EQ | followed by symmetrization 249, so as to obtain a linear phase filter.
La réponse fréquentielle de ce filtre, est cependant très irrégulière et, du fait des approximations qui ont entaché son calcul, seule sa forme générale est pertinente. C'est pourquoi on "procède à un étroit fenêtrage symétrique 250 de la réponse impulsionnelle issue des opérations 248 (transformée de Fourier inverse) et 249 (symétrisation) . Ce fenêtrage correspond à un lissage de la réponse fréquentielle du filtre.The frequency response of this filter, however, is very irregular and, due to the approximations which tainted its calculation, only its general form is relevant. This is why one " proceeds to a narrow symmetrical windowing 250 of the impulse response resulting from operations 248 (inverse Fourier transform) and 249 (symmetrization). This windowing corresponds to a smoothing of the frequency response of the filter.
Le fenêtrage est suivi d'un décalage de manière à obtenir un filtre de la longueur de la fenêtre, sans retard supplémentaire.The windowing is followed by an offset so as to obtain a filter of the length of the window, without additional delay.
On utilise pour cela par exemple une fenêtre triangulaire de longueur 11 (échantillons) , dont les coefficients sont représentés sur la figure 6 pour une réponse impulsionnelle initiale sur 256 points. Une fois multipliée par cette fenêtre, la réponse impulsionnelle de l'égaliseur adapté est décalée de 123 points vers la gauche. Ceci permet de ne pas retarder le signal ce qui serait le cas si les zéros devant la fenêtre intervenaient dans le calcul de la sortie du filtre.For this, a triangular window of length 11 (samples) is used for this, the coefficients of which are shown in FIG. 6 for an initial impulse response on 256 points. Once multiplied by this window, the impulse response of the adapted equalizer is shifted by 123 points to the left. This makes it possible not to delay the signal which would be the case if the zeros in front of the window intervened in the calculation of the output of the filter.
On procède alors ensuite à un contrôle automatique de gain . Ce contrôle a typiquement l ' un ou l ' autre des deux obj ectifs suivants : - normaliser le niveau,Then an automatic gain control is carried out. This control typically has one or the other of the following two objectives: - normalize the level,
- assurer la transparence du dispositif vis-à-vis du niveau global de parole à la réception. -- ensure the transparency of the system vis-à-vis the overall level of speech at reception. -
Deux réalisations sont proposées dans la suite correspondant respectivement à ces deux objectifs.Two embodiments are proposed in the following corresponding respectively to these two objectives.
Dans une première réalisation le contrôle de gain est réalisé par l'égaliseur adapté 24. Le choix de γref correspond en effet à un niveau nominal souhaitable pour la parole. Ainsi, suivant le niveau choisi pour γref/ l'égaliseur adapté corrige automatiquement le niveau de parole pour atteindre le niveau souhaité en réception. ....'.Le but .de. la deuxième réalisation- est de corriger le timbre tout en assurant une conservation du niveau global de la parole par rapport à la même liaison sans le dispositif.In a first embodiment, the gain control is carried out by the adapted equalizer 24. The choice of γ ref indeed corresponds to a desirable nominal level for speech. Thus, depending on the level chosen for γ r ef / the appropriate equalizer automatically corrects the speech level to reach the desired level in reception. ....'.The goal of. the second achievement is to correct the timbre while ensuring conservation of the overall level of speech compared to the same connection without the device.
Pour cela, le spectre à long terme du signal de réception doit avoir la même énergie avec le dispositif que sans. On applique donc à la sortie de l'égaliseur 24 adapté le gain α défini par la formule théorique :For this, the long-term spectrum of the reception signal must have the same energy with the device as without. The gain α defined by the theoretical formula is therefore applied to the output of the adapted equalizer 24:
Figure imgf000020_0001
Figure imgf000020_0001
I n.—υ avec γaec(k) e γsaπs(k) densité spectrale de puissance du signal reçu à la fréquence discrète k, respectivement avec et sans l'ensemble pré-égaliseur 23 plus égaliseur adapté 24. Comme le canal est invariant dans le temps, l'égaliseur adapté converge vers une réponse variant peu de sorte qu' à chaque trame :I n. — υ with γaec (k) e γ sa πs (k) power spectral density of the signal received at the discrete frequency k, respectively with and without the pre-equalizer set 23 plus adapted equalizer 24. As the channel is invariant in time, the adapted equalizer converges towards a response varying little so that at each frame:
E [γavec (k) ] = | EQliss (k) | 2 | S_RX0 (k) | 2 | L-RX0 (k) | 2E [γx (k) ] ( 11 ) où EQiigg est la réponse fréquentielle de l'égaliseur adapté pour la trame courante.E [γ a vec (k)] = | EQ li ss (k) | 2 | S_RX 0 (k) | 2 | L-RX 0 (k) | 2 E [γ x (k)] (11) where EQiigg is the frequency response of the equalizer adapted for the current frame.
Cependant, j EQι±ss j n'est pas connu directement, puisque le lissage de la réponse fréquentielle de l'égaliseur est effectué par un fenêtrage de la réponse impulsionnelle issue de |EQ] . Comme la quantité |EQ| est directement disponible (calculée dans le module d'égalisation adaptée), pour simplifier la réalisation, on approche | EQnss | par λ | EQiiSS | , λ étant un facteur de correction de la différence d'énergie entre |EQiiSS| et |EQ| liée au fenêtrage de la réponse impulsionnelle. Si l'on note W la réponse fréquentielle de la fenêtre,However, j EQι ± ss j is not known directly, since the smoothing of the frequency response of the equalizer is carried out by windowing the impulse response from | EQ]. As the quantity | EQ | is directly available (calculated in the adapted equalization module), to simplify the implementation, we approach | EQn ss | by λ | EQii SS | , λ being a correction factor for the energy difference between | EQii SS | and | EQ | related to the windowing of the impulse response. If we write W the frequency response of the window,
EQiiss(k)= i-EQ(k)® (k) (12)EQii ss (k) = i-EQ (k) ® (k) (12)
NNOT
où ® désigne la convolution circulaire et N le nombre de points de la FFT, 256 par exemple. |EQ| étant très irrégulier, si on l'assimile à du bruit,where ® denotes the circular convolution and N the number of points of the FFT, 256 for example. | EQ | being very irregular, if we compare it to noise,
E[|EQliss(k) | ] =E [| EQ liss (k) | ] =
-lE[|EQ(k) j2] ∑ (k)2=E[|EQ(k) |2]. ∑ w(n)2 (13)-E [[EQ (k) j 2 ] ∑ (k) 2 = E [| EQ (k) | 2 ]. ∑ w (n) 2 (13)
N k=0 n=0 N k = 0 n = 0
w désignant la fenêtre temporelle. Ainsi,w designating the time window. So,
Figure imgf000021_0001
Figure imgf000021_0001
Pour une fenêtre triangulaire de longueur 11, λ=2 D'autre part, E [γsans (k) ] [γx (k) ] (15)
Figure imgf000022_0001
For a triangular window of length 11, λ = 2 On the other hand, E [γ s years (k)] [γ x (k)] (15)
Figure imgf000022_0001
où γx(k) est la densité spectrale de puissance de la sortie du pré-égaliseur et PRE_EQ(k) la réponse fréquentielle du pré-égaliseur.where γ x (k) is the power spectral density of the output of the pre-equalizer and PRE_EQ (k) the frequency response of the pre-equalizer.
Ainsi,So,
Figure imgf000022_0002
Figure imgf000022_0002
Le gain est donc calculé avec une complexité réduite, puisque E[γx(k)] et |EQ(k) | sont déjà calculés dans le module d' égalisation adaptée et les autres facteurs sont des constantes .The gain is therefore calculated with reduced complexity, since E [γ x (k)] and | EQ (k) | are already calculated in the adapted equalization module and the other factors are constants.
Si Fc est trop faible, le signal reçu est affecté d'un fort bruit de quantification. En effet, comme l'atténuation du système de réception est d'autant plus forte que la fréquence est faible et que, l'égalisation compensant cette atténuation sur la bande Fc-Fh, est placée avant le système de réception, cette égalisation anticipée induit à la sortie du dispositif des différences de niveau entre les composantes hautes et basses fréquences d'autant plus grandes que Fc est faible. Ainsi, pour certains phonèmes, le niveau du bruit de quantification lors de la conversion en loi A est proche de celui des composantes médium et aiguës. Après l'atténuation des composantes BF par le système de réception, le bruit perçu à la réception est aussi énergétique que le signal de parole.If F c is too weak, the received signal is affected by a strong quantization noise. Indeed, as the attenuation of the reception system is all the stronger the lower the frequency and that, the equalization compensating for this attenuation on the band Fc-Fh, is placed before the reception system, this anticipated equalization induces at the output of the device, differences in level between the high and low frequency components are all the greater as F c is low. Thus, for certain phonemes, the level of the quantization noise during the conversion into A-law is close to that of the mid and high components. After the attenuation of the LF components by the system reception noise is as energetic as the speech signal.
Dans une réalisation typique on a choisi : - Fc = 250Hz, ce qui permet un compromis- acceptable entre la restauration des composantes BF et la limitation du bruit de quantification.In a typical embodiment, we have chosen: - F c = 250 Hz, which allows an acceptable compromise between the restoration of the LF components and the limitation of the quantization noise.
Pour tous les locuteurs qui ont été testés, le timbre de la voix à la .réception est nettement plus proche de l'original avec la correction par le dispositif présenté que sans dispositif.For all the speakers who have been tested, the timbre of the voice at reception is much closer to the original with the correction by the device presented than without the device.
Le temps d'adaptation de l'égaliseur est très rapide : une amélioration . du timbre est perceptible en moins d'une seconde et une estimation stable de l'égaliseur est obtenue en moins de 4 secondes pour la plupart des locuteurs .The adjustment time of the equalizer is very fast: an improvement. of the timbre is perceptible in less than a second and a stable estimate of the equalizer is obtained in less than 4 seconds for most speakers.
La figure 8 présente pour deux locuteurs la distorsion spectrale entre le signal de parole reçu et le signal original au bout de 4 secondes de parole, dans le cas d'une liaison composée d'un SRI conforme à l'UIT, d'une ligne, longue à l'émission et d'une ligne moyenne à la réception.Figure 8 shows for two speakers the spectral distortion between the received speech signal and the original signal after 4 seconds of speech, in the case of a link composed of an ITU-compliant IRS, of a line , long on transmission and an average line on reception.
Une distorsion nulle serait représentée par une courbe plate moyenne (+++) sur toute la bande de fréquences, à -9dB environ si l'on ne modifie pas le niveau de réception par rapport au système sans correction.A zero distortion would be represented by an average flat curve (+++) over the entire frequency band, at around -9dB if the reception level is not changed compared to the system without correction.
La distorsion est représentée dans trois cas : sans correction (tirets) , avec pré-égaliseur seul (pointillés fins) et avec le dispositif complet (trait plein). La courbe dans ce dernier cas n'est pas complètement plate sur la bande égalisée (250-3150 Hz) , mais les écarts sont inférieurs à 2,5 dB, ce qui est peu perceptible. La correction de niveau est ici réalisée selon la deuxième méthode (conservation du niveau global) . The distortion is represented in three cases: without correction (dashes), with only pre-equalizer (fine dotted lines) and with the complete device (solid line). The curve in the latter case is not completely flat on the equalized band (250-3150 Hz), but the differences are less than 2.5 dB, which is hardly noticeable. Level correction is here carried out according to the second method (conservation of the overall level).

Claims

REVENDICATIONS
1. Procédé de correction du timbre de la parole transmise sous la forme d'un signal au moyen d'une liaison de transmission d'un réseau téléphonique, la correction ayant lieu après la conversion analogique- numérique du signal dans -le réseau, caractérisé en ce qu'il comprend au moins une étape de pré-égalisation du signal numérique par un filtre fixe ayant une réponse fréquentielle dans une bande de fréquences Fc-Fh correspondant à l'inverse d'une déformation spectrale de référence introduite par la liaison téléphonique, avec Fc < 300Hz et Fh > 3150Hz.1. Method for correcting the timbre of speech transmitted in the form of a signal by means of a transmission link of a telephone network, the correction taking place after the analog-digital conversion of the signal in the network, characterized in that it comprises at least one step of pre-equalization of the digital signal by a fixed filter having a frequency response in a frequency band Fc-Fh corresponding to the inverse of a reference spectral deformation introduced by the telephone link , with Fc <300Hz and Fh> 3150Hz.
2. Procédé de correction du timbre de la parole selon la revendication 1, caractérisé en ce que la déformation spectrale prise comme référence est caractérisée, pour une liaison du réseau de téléphonie 'commutée (RTC) , à partir de la mise en cascade d'un système de référence intermédiaire (SRI) du type défini par la recommandation UIT-T P.48, et de deux lignes analogiques moyennes (émission et réception) .2. Method for correcting the timbre of speech according to claim 1, characterized in that the spectral distortion taken as reference is characterized, for a connection of the 'switched telephone network (PSTN), from the cascading of an intermediate reference system (IRS) of the type defined by ITU-T recommendation P.48, and two medium analog lines (transmit and receive).
3. Procédé de correction du timbre de la parole selon la revendication 1, caractérisé en ce que la déformation spectrale prise comme référence est dans le cas où le terminal émetteur est un téléphone mobile et le terminal récepteur est un poste fixe, celle résultant de la mise en cascade d'un filtre respectant le gabarit d'efficacité des mobiles en émission défini par la recommandation P.313 de l'UIT, d'une ligne analogique moyenne et d'un système de récepteur du SRI tel que défini par la recommandation UIT-TP.48.3. Method for correcting the timbre of speech according to claim 1, characterized in that the spectral deformation taken as a reference is in the case where the transmitting terminal is a mobile telephone and the receiving terminal is a fixed station, that resulting from the cascading of a filter respecting the efficiency template of the mobiles in transmission defined by the ITU recommendation P.313, of a line analog medium and an IRS receiver system as defined by Recommendation ITU-TP.48.
4. Procédé de correction du timbre de la parole selon, la revendication 1,. caractérisé .en ce. que la déformation spectrale prise comme référence est, dans le cas où le terminal émetteur est un poste fixe et le terminal récepteur est un téléphone mobile, celle résultant de la mise en cascade d'un système émetteur du SRI tel que défini par la recommandation UIT-TP.48, d'une ligne analogique moyenne et d'un filtre respectant le gabarit d'efficacité des mobiles en réception défini par- la recommandation P.313 de l'UIT.4. Method for correcting the timbre of speech according to claim 1. characterized .in this. that the spectral distortion taken as a reference is, in the case where the transmitting terminal is a landline and the receiving terminal is a mobile telephone, that resulting from the cascading of an SRI transmitting system as defined by the ITU recommendation -TP.48, an average analog line and a filter respecting the efficiency template of the mobiles in reception defined by ITU recommendation P.313.
5. Procédé de correction du timbre de la parole selon la revendication 1, caractérisé en ce que la déformation spectrale prise comme référence est, dans le cas d'une liaison entre terminaux mobiles, celle résultant de la mise en cascade d'un filtre respectant le gabarit d'efficacité des mobiles en émission défini par la- recommandation P.313 de l'UIT et d'un filtre- respectant le gabarit d'efficacité des mobiles en réception défini par la recommandation P.313 de l'UIT.5. Method for correcting the timbre of speech according to claim 1, characterized in that the spectral deformation taken as reference is, in the case of a link between mobile terminals, that resulting from the cascading of a filter respecting the transmission efficiency mask of the mobiles defined by the ITU recommendation P.313 and a filter- respecting the reception mobiles efficiency mask defined by the ITU recommendation P.313.
6. Procédé de correction du timbre de la parole selon l'une quelconque des revendications précédentes, caractérisé en ce que le filtre utilisé est un filtre de type à réponse impulsionnelle infinie IIR.6. Method for correcting the timbre of speech according to any one of the preceding claims, characterized in that the filter used is a filter of type IIR infinite impulse response.
7. Procédé de correction du timbre de la parole selon l'une quelconque des revendications précédentes, caractérisé en ce que la fréquence basse Fc de la bande de filtrage du filtre est de l'ordre de 250Hz. 7. Method for correcting the timbre of speech according to any one of the preceding claims, characterized in that the low frequency Fc of the filter filter band is of the order of 250Hz.
8. Procédé de correction du timbre de la parole selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte en outre une étape d'égalisation adaptée dans laquelle on utilise un filtre ayant une réponse fréquentielle adaptée automatiquement à la distorsion réelle introduite par la liaison téléphonique en fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme du signal .8. Method for correcting the timbre of speech according to any one of the preceding claims, characterized in that it further comprises an adapted equalization step in which a filter having a frequency response adapted automatically to the actual distortion is used introduced by the telephone link as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
9. Procédé de correction du timbre de la parole selon la revendication 8, caractérisé en -ce que l'étape d'égalisation adaptée comprend :9. Method for correcting the timbre of speech according to claim 8, characterized in that the adapted equalization step comprises:
- la détection d'une activité vocale sur la ligne pour déclencher un enchaînement de traitements pour le calcul des coefficients du filtre numérique en fonction du rapport entre le spectre de référence et le spectre correspondant au spectre à long terme du signal, la commande du filtre avec les coefficients obtenus et l'actualisation desdits coefficients,- the detection of a vocal activity on the line to trigger a sequence of processing operations for the calculation of the coefficients of the digital filter as a function of the ratio between the reference spectrum and the spectrum corresponding to the long-term spectrum of the signal, the filter control with the coefficients obtained and the updating of said coefficients,
- - le filtrage du signal sortant du pré-égaliseur par ledit filtre.- the filtering of the signal leaving the pre-equalizer by said filter.
10. Procédé de correction du timbre de la parole selon la revendication 9, caractérisé en ce que10. Method for correcting the timbre of speech according to claim 9, characterized in that
1 ' enchaînement de traitements comprend :1 sequence of treatments includes:
- le calcul du spectre à long terme du signal dans des fenêtres temporelles successives se recouvrant partiellement , - le calcul du module de la réponse fréquentielle de l'égaliseur adapté sur la bande Fc-Fh en effectuant le rapport de la racine carrée du spectre à long terme obtenu dans une fenêtre temporelle à la racine carrée du spectre de référence, la racine carrée du spectre de référence étant compensé à chaque fréquence par un facteur prédéterminé A(f) .- the calculation of the long-term spectrum of the signal in successive partially overlapping time windows, - the calculation of the modulus of the frequency response of the adapted equalizer on the Fc-Fh band by performing the ratio of the square root of the spectrum to long term obtained in a time window at the square root of the reference spectrum, the square root of the spectrum reference being compensated at each frequency by a predetermined factor A (f).
11. Procédé de correction du timbre de la parole selon la revendication 9 ou 8, caractérisé en ce que l'enchaînement de traitements comprend une extrapolation du module de la réponse fréquentielle de l'égaliseur adapté, pour les fréquences en dehors de la bande Fc-Fh, typiquement pour une bande 0-4000Hz.11. Method for correcting the timbre of speech according to claim 9 or 8, characterized in that the processing sequence comprises an extrapolation of the module of the frequency response of the adapted equalizer, for frequencies outside the band Fc -Fh, typically for a 0-4000Hz band.
12. Procédé de correction du timbre de la parole selon l'une quelconque des revendications 9 à 11, caractérisé en ce que l'enchaînement de. traitements comprend le calcul de la réponse impulsionnelle du filtre numérique à partir du module de la réponse fréquentielle de l'égaliseur adapté extrapolé pour les fréquences en dehors de la bande Fc-Fh.12. Method for correcting the timbre of speech according to any one of claims 9 to 11, characterized in that the sequence of. processing includes calculating the impulse response of the digital filter from the module of the frequency response of the adapted equalizer extrapolated for frequencies outside the Fc-Fh band.
13. Procédé de correction du timbre de la parole selon l'une quelconque des revendications 8 à 12, caractérisé en ce que le calcul du spectre du signal à long terme comprend une opération de transformée de Fourier rapide.13. Method for correcting the timbre of speech according to any one of claims 8 to 12, characterized in that the calculation of the spectrum of the long-term signal comprises a fast Fourier transform operation.
14. Procédé de correction du timbre de la parole selon l'une quelconque des revendications 8 à 12, caractérisé en ce que le calcul de la réponse impulsionnelle du filtre consiste à calculer les coefficients du filtre en opérant une transformée de Fourier inverse sur la réponse fréquentielle de l'égaliseur adapté, une symétrisation puis une opération assurant le lissage de la réponse fréquentielle . 14. Method for correcting the timbre of speech according to any one of claims 8 to 12, characterized in that the calculation of the impulse response of the filter consists in calculating the coefficients of the filter by operating an inverse Fourier transform on the response frequency of the adapted equalizer, symmetrization then an operation ensuring the smoothing of the frequency response.
15. Procédé de correction du timbre de la parole selon la revendication 14, caractérisé en ce que l'opération de lissage est effectuée par l'application d'une fenêtre temporelle sur la réponse impulsionnelle.15. Method for correcting the timbre of speech according to claim 14, characterized in that the smoothing operation is carried out by the application of a time window on the impulse response.
16. Procédé de correction du timbre de la parole selon l'une quelconque des revendications 8 à 15, caractérisé en ce que le calcul du spectre à long terme du signal dans des fenêtres temporelles successives se recouvrant partiellement comprend : l'échantillonnage du signal dans une fenêtre temporelle, l'opération de transformée de Fourier rapide16. Method for correcting the timbre of speech according to any one of claims 8 to 15, characterized in that the calculation of the long-term spectrum of the signal in successive partially overlapping time windows comprises: sampling the signal in a time window, the fast Fourier transform operation
(FFT) du signal échantillonné, - le calcul de la densité spectrale de puissance, le calcul de la moyenne de la densité spectrale de puissance, sur une durée prédéterminée.(FFT) of the sampled signal, - the calculation of the power spectral density, the calculation of the average of the power spectral density, over a predetermined duration.
17. Procédé de correction du timbre de la parole selon la revendication 16, caractérisé en ce que le calcul de la moyenne de la densité spectrale de puissance consiste :17. Method for correcting the timbre of speech according to claim 16, characterized in that the calculation of the average of the power spectral density consists of:
- pour les N premières fenêtres temporelles à partir de la détection de présence de parole dans le signal, à calculer la moyenne arithmétique des densités spectrales de puissance de toutes les fenêtres temporelles écoulées depuis ladite détection, N étant un nombre de fenêtre temporelles prédéterminé, typiquement mais non exclusivement le nombre de fenêtres temporelles dans 4 secondes de parole ;for the first N time windows from the detection of the presence of speech in the signal, calculating the arithmetic mean of the power spectral densities of all the time windows elapsed since said detection, N being a predetermined number of time windows, typically but not exclusively the number of time windows in 4 seconds of speech;
- pour les fenêtres temporelles suivantes, à ajuster la moyenne de la densité spectrale de puissance calculée à la fenêtre temporelle précédente par un lissage récursif du premier ordre tenant compte de la densité spectrale de puissance de la fenêtre temporelle courante.- for the following time windows, to adjust the average of the power spectral density calculated in the time window previous by a first order recursive smoothing taking into account the power spectral density of the current time window.
18. Procédé de. correction du timbre de la. parole selon l'une quelconque des revendications 8 à 17, caractérisé en ce qu'il comprend une étape de contrôle automatique du gain.18. Method of. correction of the stamp of the. speech according to any one of claims 8 to 17, characterized in that it comprises an automatic gain control step.
19. Procédé de correction du timbre de la parole selon la revendication 18, caractérisé en ce que le contrôle automatique du . gain . est réalisé durant \ l' enchaînement des traitements de l'étape d'égalisation, adaptée en choisissant une densité spectrale de référence γref correspondant au niveau souhaité en réception.19. Method for correcting the timbre of speech according to claim 18, characterized in that the automatic control of. gain. is performed during the sequence of treatments of the equalization step, adapted by choosing a reference spectral density γ ref corresponding to the desired level in reception.
20. Procédé de correction du timbre de la parole selon la revendication 18, caractérisé en ce que le contrôle automatique du gain est réalisé par amplification du signal - obtenu après égalisation adaptée avec un gain α fonction du rapport entre la densité spectrale de puissance du signal de réception lorsque l'on a effectué une pré-égalisation et une égalisation adaptée du signal et, la densité spectrale de puissance du signal en l'absence de pré-égalisation et d'égalisation du signal.20. Method for correcting the timbre of speech according to claim 18, characterized in that the automatic gain control is carried out by amplification of the signal - obtained after suitable equalization with a gain α as a function of the ratio between the power spectral density of the signal reception when a pre-equalization and a suitable equalization of the signal have been carried out and, the spectral power density of the signal in the absence of pre-equalization and equalization of the signal.
21. Filtre numérique fixe destiné à la correction du timbre de la parole dans un réseau de transmission téléphonique, caractérisé en ce qu'il a une réponse fréquentielle dans une bande de fréquences Fc-Fh correspondant à l'inverse d'une déformation spectrale de.. référence introduite par la liaison téléphonique, avec Fc < 300Hz et Fh > 3150Hz.21. Fixed digital filter intended for the correction of the timbre of speech in a telephone transmission network, characterized in that it has a frequency response in a frequency band Fc-Fh corresponding to the inverse of a spectral distortion of .. reference introduced by the telephone link, with Fc <300Hz and Fh> 3150Hz.
22. Filtre numérique adapté destiné à la correction 5. du timbre de la parole dans un réseau, de transmission téléphonique, caractérisé en ce qu'il comprend des moyens de traitement du signal de parole ayant une réponse fréquentielle adaptée automatiquement à la distorsion réelle introduite par la liaison 0 téléphonique en fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme du signal.22. Adapted digital filter intended for the correction of the timbre of speech in a network, of telephone transmission, characterized in that it comprises means for processing the speech signal having a frequency response automatically adapted to the actual distortion introduced by the telephone link 0 as a function of the ratio between a reference spectrum and a spectrum corresponding to the long-term spectrum of the signal.
23. Dispositif de correction du timbre de la parole 5 dans un réseau de transmission téléphonique, caractérisé en ce qu'il comprend un filtre fixe selon la revendication 20 suivi d'un filtre adapté selon la revendication 21 et des moyens de contrôle automatique du gain. 023. Device for correcting the timbre of speech 5 in a telephone transmission network, characterized in that it comprises a fixed filter according to claim 20 followed by a suitable filter according to claim 21 and means for automatic gain control . 0
24. Dispositif de correction du timbre de la parole dans un réseau de transmission selon la revendication 23, caractérisé en ce que les moyens de contrôle automatique du gain sont réalisés par le filtre adapté. 524. Device for correcting the timbre of speech in a transmission network according to claim 23, characterized in that the means for automatic gain control are produced by the suitable filter. 5
25. Dispositif de correction du timbre de la parole dans un réseau de transmission selon la revendication 23, caractérisé en ce que les moyens de contrôle automatique du gain sont réalisés un amplificateur du 0 signal de gain α fonction du rapport entre la densité spectrale de puissance du signal de réception lorsque l'on a effectué une pré-égalisation et une égalisation adaptée du signal et, la densité spectrale de puissance du signal en l'absence de pré-égalisation et d'égalisation adaptée du signal. 25. device for correcting the timbre of speech in a transmission network according to claim 23, characterized in that the automatic gain control means are made an amplifier of the gain signal α as a function of the ratio between the power spectral density of the reception signal when a pre-equalization and a suitable equalization of the signal have been carried out and, the power spectral density signal in the absence of pre-equalization and suitable signal equalization.
PCT/FR2002/001022 2001-03-28 2002-03-25 Method and device for centralised correction of speech tone on a telephone communication network WO2002077977A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0104194A FR2822999B1 (en) 2001-03-28 2001-03-28 METHOD AND DEVICE FOR CENTRALIZED CORRECTION OF SPEECH TIMER ON A TELEPHONE COMMUNICATIONS NETWORK
FR01/04194 2001-03-28

Publications (1)

Publication Number Publication Date
WO2002077977A1 true WO2002077977A1 (en) 2002-10-03

Family

ID=8861648

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/001022 WO2002077977A1 (en) 2001-03-28 2002-03-25 Method and device for centralised correction of speech tone on a telephone communication network

Country Status (2)

Country Link
FR (1) FR2822999B1 (en)
WO (1) WO2002077977A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2848715B1 (en) 2002-12-11 2005-02-18 France Telecom METHOD AND SYSTEM FOR MULTI-REFERENCE CORRECTION OF SPECTRAL VOICE DEFORMATIONS INTRODUCED BY A COMMUNICATION NETWORK

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896449A (en) * 1993-12-02 1999-04-20 Alcatel Usa Sourcing L.P. Voice enhancement system and method
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
DE19852091C1 (en) * 1998-11-12 2000-05-25 Deutsche Telekom Mobil Method and device for improving the audio quality in a mobile radio network
US6157909A (en) * 1997-07-22 2000-12-05 France Telecom Process and device for blind equalization of the effects of a transmission channel on a digital speech signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896449A (en) * 1993-12-02 1999-04-20 Alcatel Usa Sourcing L.P. Voice enhancement system and method
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
US6157909A (en) * 1997-07-22 2000-12-05 France Telecom Process and device for blind equalization of the effects of a transmission channel on a digital speech signal
DE19852091C1 (en) * 1998-11-12 2000-05-25 Deutsche Telekom Mobil Method and device for improving the audio quality in a mobile radio network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LETOWSKI T: "TIMBRE, TONE COLOR, AND SOUND QUALITY: CONCEPTS AND DEFINITIONS", ARCHIVES OF ACOUSTICS, POLISH SCIENTIFIC PUBLISHERS, WARZAW, PL, vol. 17, no. 1, 1992, pages 17 - 30, XP001039610, ISSN: 0137-5075 *

Also Published As

Publication number Publication date
FR2822999B1 (en) 2003-07-04
FR2822999A1 (en) 2002-10-04

Similar Documents

Publication Publication Date Title
EP1830349B1 (en) Method of noise reduction of an audio signal
EP0710947B1 (en) Method and apparatus for noise suppression in a speech signal and corresponding system with echo cancellation
EP0932964B1 (en) Method and device for blind equalizing of transmission channel effects on a digital speech signal
FR2741217A1 (en) METHOD AND DEVICE FOR REMOVING PARASITE NOISE IN A COMMUNICATION SYSTEM
WO2006032760A1 (en) Method of processing a noisy sound signal and device for implementing said method
FR2651077A1 (en) DEVICE FOR TREATING ECHO, IN PARTICULAR ACOUSTIC, IN A TELEPHONE LINE
EP0608174A1 (en) System for predictive encoding/decoding of a digital speech signal by an adaptive transform with embedded codes
EP2057835A1 (en) Method of reducing the residual acoustic echo after echo removal in a hands-free device
FR2596936A1 (en) VOICE SIGNAL TRANSMISSION SYSTEM
CA2186281A1 (en) Frequency-domain adaptive-filter acoustic echo canceller
EP1429316B1 (en) System and method for multi-referenced correction of spectral voice distortions introduced by a communication network
EP0692883B1 (en) Blind equalisation method, and its application to speech recognition
EP1039736B1 (en) Method and device for adaptive identification and related adaptive echo canceller
WO2016038316A1 (en) Discrimination and attenuation of pre-echoes in a digital audio signal
EP1774660B1 (en) Method for designing a digital reception filter and corresponding receiving device
WO2002077977A1 (en) Method and device for centralised correction of speech tone on a telephone communication network
Kermorvant A comparison of noise reduction techniques for robust speech recognition
EP0857385B1 (en) Digital-to-analog communication device and method
EP0981881B1 (en) Equalising and decoding device for a frequency-selective digital transmission channel
EP0511698A1 (en) Semi-recursive adaptive equalizer
EP0989544A1 (en) Device and method for filtering a speech signal, receiver and telephone communications system
US7177805B1 (en) Simplified noise suppression circuit
FR2802375A1 (en) DEVICE FOR PROCESSING ECHO IN A COMMUNICATION SYSTEM AT A TERMINAL
EP0860963B1 (en) Method and apparatus for the automatic equalisation of transmission channels, which carry signals of substantially constant modulus
WO2003036893A1 (en) Inter-symbol interference canceller

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP