WO2014009657A1 - Traitement d'amelioration de la qualite des signaux audiofrequences - Google Patents

Traitement d'amelioration de la qualite des signaux audiofrequences Download PDF

Info

Publication number
WO2014009657A1
WO2014009657A1 PCT/FR2013/051647 FR2013051647W WO2014009657A1 WO 2014009657 A1 WO2014009657 A1 WO 2014009657A1 FR 2013051647 W FR2013051647 W FR 2013051647W WO 2014009657 A1 WO2014009657 A1 WO 2014009657A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
frequency
gain
spectral gain
spectral
Prior art date
Application number
PCT/FR2013/051647
Other languages
English (en)
Inventor
Jérôme DANIEL
Stéphane RAGOT
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2014009657A1 publication Critical patent/WO2014009657A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Definitions

  • the present invention relates to the field of the processing of audio signals and in particular of speech or music signals which have been coded and decoded by speech coders and decoders.
  • the audio processing device is particularly suitable for transmitting and / or storing audio-frequency signals.
  • the invention relates more to the post-processing of the decoded signals to improve the quality of the decoded musical signals or the audio processing, such as for example the processing by applying a spectral gain (in the time or frequency domain) for the noise reduction ambient.
  • CELP coding As an example of speech coder-decoder, however the invention applies to the general case of speech and audio coders (eg: MIC, ADPCM, CELP, etc.). .
  • the CELP coding - of which its variant called ACELP (for "Algebraic CELP") used for example in the 3GPP AMR and AMR-WB standards - is a predictive coding based on the source-filter model of speech production.
  • the filter generally corresponds to an all-pole transfer function filter 1 / A (z) obtained by linear prediction LPC (for "Linear Predictive Coding").
  • LPC linear Predictive Coding
  • the signal is synthesized using the quantized version, 1 / ⁇ (z), of the filter 1 / A (z).
  • the source - that is, the excitation of the predictive linear filter 1 / A (z) - is generally represented as the combination of adaptive excitation (obtained by long-term prediction modeling the vibration of the vocal cords).
  • the ACELP encoding is actually applied in frames of 20 ms not to the direct signal sampled at 16 kHz but to a pre-emphasized signal sampled at 12.8 kHz in a reduced audio band (0-6400 Hz ); pre-emphasis (or pre-emphasis) is performed by the transfer function filter with the perceptual weighting filter used for the noise shaping of
  • CELP coding is based on a temporal and predictive coding approach based on a signal model (LPC); this type of coding is very effective on (clean) speech, but it gives at low speed a quality which is often mediocre for cases of signals moving away from the assumptions of the speech production model.
  • LPC signal model
  • CELP speech coders are historically deployed in fixed and mobile telephony applications because they provide better low-rate quality for the speech signals that are the most important signals for telephony applications.
  • music signals or mixed content still represent an important signal class in some use cases such as waiting music, return tone, and so on. It is therefore relevant and important to seek to improve the quality of speech coders already deployed in services for music and mixed content.
  • Figure 1 shows the concrete example of a musical signal (an organ sound) sampled at 16 kHz, prefiltered by a P.341 mask (50-7000 Hz) and analyzed by short-term FFT on a support of 512 samples (32 ms).
  • the spectrum of the signal ('sig') on the considered frame shows a number of tonal components (and).
  • the corresponding noise spectrum appears as relatively strong between the tonal components.
  • This characteristic of the coding noise is explained by the fact that the CELP coding is temporal and formats the noise in principle according to the frequency response of the filter, in contrast to transform coding operating in a frequency domain, CELP coding can not "dig" between harmonics or tonal components, also called tones.
  • the complex spectrum obtained is here denoted S (f), where
  • a classification (block 203) of the decoded CELP signal to evaluate the level of stationarity in the current frame and adjust the posttreatment frequency area and the maximum noise reduction level.
  • An attenuation of the coding noise (block 204): at each time index frame t, the level of coding noise is estimated by critical subbands of index i
  • a signal-to-noise ratio SNR (f) a posteriori is then estimated by frequency line le, the latter being defined as the ratio between the energy of the decoded and pre-accented signal at the frequency line f and the noise energy. in the critical band including the frequency line f.
  • SNR (f) a posteriori is then estimated by frequency line le, the latter being defined as the ratio between the energy of the decoded and pre-accented signal at the frequency line f and the noise energy. in the critical band including the frequency line f.
  • this constraint includes an implicit margin (left free to the design algorithmic) for output re-sampling output at 8, 16, 32 or even 48 kHz; the existing AMR-WB encoder having a delay of 25.9375 ms, such a constraint therefore leaves an additional delay margin of less than 5 ms for a (post-) enhancement treatment. Depending on the coding architecture chosen, this margin can even be reduced to a value between 1 to 2.5 ms.
  • the short-term FFT analysis-synthesis window is not detailed in the article by "Vaillancourt et al".
  • suitable windowing can be provided.
  • An example of adapted windowing is for example illustrated in Figures 3a, 3b and 3c.
  • the analysis window w a (n) of FIG. 3a is of the Hamming type and the synthesis window w s (n) of FIG. 3c compensates the analysis window and includes a w ola addition-recovery window ( n) low delay illustrated in Figure 3b. More precisely, we take as an example the following windows:
  • the analysis window w a (n) is defined as a Hamming window of length
  • N 512 samples, which corresponds to 32 ms at 16 kHz:
  • the synthesis window w (n) is defined as
  • FIG. 4 illustrates the operation of reducing the frequency domain coding noise in the manner of the state of the art of "Vaillancourt et al", by taking - without loss of generality - the windowing of FIGS. , 3b and 3c to implement short-term FFT analysis / synthesis.
  • the windowed signal is defined as:
  • the multiplication of X (k) by g (k) in the FFT domain to obtain X post (k) corresponds to a circular convolution between the signal x w (ri) and the impulse response h (n) obtained by inverse FFT of g (k).
  • An example of an impulse response h (n) corresponding to the gain g (k) is illustrated in the box of FIG.
  • impulse response h (n) has in general an extended time support of length N, and is associated with a filter delay FIR (for "Finite Impulse
  • the regularization of the spectral gain thus makes it possible to make the corresponding temporal response more compact after inverse transform and thus to avoid the annoying artifacts of a circular convolution while allowing the preservation of the tonal components of the audiofrequency signal.
  • the method can be applied for example for a post-processing of decoded signals but also for a noise reduction processing on an audio signal to be coded.
  • the various particular embodiments mentioned below may be added independently or in combination with each other, to the steps of the treatment method defined above.
  • the frequency pattern is according to a general embodiment a weighting function normalized to 1.
  • the pattern then has a maximum in 1 and a bilateral decay (towards the upper and lower frequencies) which makes it possible to control the variations of the frequency curve of the gain, so that its variations are not too abrupt.
  • the frequency pattern is determined from the transformation of an extended window to a predetermined length N by zero padding.
  • This type of frequency pattern makes it possible to control the frequency variation of the gain function so that its bilateral decay is not faster than this pattern.
  • the corresponding temporal response is then more compact.
  • a regularization operation of less complexity is for example according to the following equation:
  • the regulation step is performed in two passes:
  • This method even more complex, has the advantage of less widening the peaks of the original spectral gain curve, while controlling the local variations of the gain according to the frequency pattern and predefined tolerances.
  • the steps are implemented in the frequency domain on the frequency spectrum of the audiofrequency signal.
  • the filtering of the audiofrequency signal is effected in the time domain after transformation into an impulse response of the regularized spectral gain.
  • This embodiment is interesting when the length of the impulse response is short. It also avoids a step of weighting the spectrum of the audiofrequency signal with respect to the embodiment in the frequency domain.
  • the present invention also relates to a device for processing an audiofrequency signal such that it comprises:
  • This device has the same advantages as the method described above, which it implements.
  • the invention also relates to an audio frequency signal decoder comprising a processing device as described above.
  • the invention relates to a computer program comprising code instructions for implementing the steps of the method of treatment as described, when these instructions are executed by a processor.
  • the invention relates to a storage medium, readable by a processor, integrated or not to the processing device, possibly removable, storing a computer program implementing a method of treatment as described above.
  • FIG. 1 previously described illustrates an example of a short-term spectrum of a musical signal and the associated CELP coding noise
  • Figure 2 shows a block diagram of the noise reduction method of the state of the art, as described above;
  • FIGS. 3a, 3b and 3c previously described, illustrate examples of time windows used for the implementation of the time-frequency transform or inverse transform steps
  • FIG. 4 previously described illustrates the principle of frequency domain filtering according to the state of the art
  • FIG. 5 described above explains the circular convolution block effects on a signal frame, introduced by a technique of the state of the art
  • FIG. 6 illustrates a first exemplary embodiment of a treatment device and a treatment method according to the invention
  • FIG. 7 illustrates an example of windowing as a function of the recovery length, related to the post-processing delay, which can be used in one embodiment of the invention
  • FIGS. 8a, 8b and 8c represent the relationships between the spectral gain and the associated impulse response according to different treatments including that implemented by the invention
  • FIG. 9 illustrates the cancellation of the raster effect produced by the implementation of the treatment method according to the invention.
  • FIG. 10 illustrates a second exemplary embodiment of a treatment device and a treatment method according to the invention.
  • FIG. 11 illustrates an example of a hardware embodiment of a processing device according to one embodiment of the invention.
  • FIG. 6 now illustrates a first exemplary embodiment of a processing device implementing a treatment method according to the invention.
  • the processing device operates here, in an exemplary embodiment, without loss of generality, at the sampling frequency of 12.8 kHz, which corresponds to the internal frequency of the ACELP coding described in the 3GPP standard AMR-WB or equivalent in ITU-T Recommendation G.722.2, in order to minimize the complexity of post-processing in terms of the number of operations.
  • the invention is implemented in this embodiment in the modules 604 to 606 and more particularly in the module 605 gain equalization.
  • the post-processing acts as an external block (block 608) to the decoder (block 601), for example of the AMR-WB type, and requires recovering the signal synthesized after ACELP decoding in a low band (0-6400 Hz) of the decoder.
  • this processing device can be directly integrated into the AMR-WB decoder (block 601) or operate on the signal reconstructed by the AMR-WB decoder at 16 kHz, including the extension bandwidth (6400 - 7000 Hz).
  • the post-processing illustrated in FIG. 6 can be implemented at the frequency of 16 kHz after decoding AMR-WB.
  • the AMR-WB decoder may be replaced by any other type of speech and / or audio decoder, including CELP decoders and possibly modified but compatible versions of the standard AMR-WB decoder.
  • the post-processing can be implemented not in the field of the decoded signal, but in the field of the pre-emphasized signal (as in the state of the art document "Vaillancourt et al") or in another signal domain filtered by an LPC filter (LPC residual) or a perceptual weighting filter.
  • LPC filter LPC residual
  • the ACELP decoder of the AMR-WB standard decoder (block 601) is assumed to reconstruct a decoded signal x (n) at the internal frequency of 12.8 kHz.
  • a determination step (det.g (k)) of a spectral gain g (k) for shaping the signal to be applied to the audio frequency signal is performed by the module 604 from a frequency analysis (T / F ) performed by the module 602 per frame of the signal to be improved and a classification of the signal by the module 603. It is considered here that the classification (block 603) and the calculation of the gain (block 604) are implemented according to the principles of the article of the state of the art "Vaillancourt et al.” with simple adaptations that are related to the time-frequency analysis (block 602) which is here different and detailed below.
  • the spectral analysis (block 602) is here made on the basis of a discrete Fourier Transform (DFT for "Discrete Fourier Transform” in English) of the time signal weighted by an analysis window w a (n).
  • DFT discrete Fourier Transform
  • the DFT is generally advantageously implemented in the form of a fast FFT algorithm (for "Fast Fourier Transform” in English).
  • other time-frequency transforms may be envisaged, such as DCT (for "Discrete Fourier Transform” in English), or even MDCT (for "Modified Discrete Cosine Transform” in English), well known to the man of art.
  • a Hamming type window defined by:
  • Tukey-type window for the analysis induced in the spectrum of potentially harmful secondary lobes for the detection and the cleaning of the coding noise.
  • a Tukey (symmetrical) type window of length can be enerized as
  • window w (ri) of 1 ⁇ 240 samples (30 ms at 8 kHz) are shown in Figure 7 for 4 ° and 80 (2.5, 5, 10 ms at 8 kHz).
  • the present invention applies just as advantageously with any type of windows analysis and / or synthesis.
  • a particular example is the so-called 'hamcos' window (like the one used for LPC analysis in the AMR-WB encoder), constituted for its first two thirds by a growing Hamming half-window and for the last third by a window. decreasing cosine.
  • CELP core coding
  • N 512 points.
  • the implicit window of addition-overlap w ola (n) is the square of a Tukey window of size L with a central flat portion of L - 2L ola samples (see Figure 7). From there, the synthesis window is deduced according to the equation: Note that the zero stuffing is illustrated here by adding the zeros to the right of the windows, but it is totally equivalent - to a circular shift - to divide the zeros on either side, or to place them all to the left of the window. block analyzed. Thus, as explained previously, in the embodiment illustrated in FIG.
  • FIG. 4 shows in the box an example of spectral correction gain (or spectral gain) calculated for an organ signal frame.
  • the inverse transform of this spectral function produces a finite impulse response (FIR), h (n) associated, such that the multiplication of the signal spectrum by this gain curve is equivalent in time domain to the circular convolution of the analyzed signal.
  • FIR finite impulse response
  • FIG. 8b illustrates a spectral gain gf (k) calculated in the frequency domain but applied in the time domain by linear convolution (FIR filtering) by the impulse response h (n).
  • the impulse response h (n) represented here (wind.FIR) is in fact truncated by Hanning type windowing of length less than the size N of the FFT so as to limit the delay of the FIR filtering if the filtering (post-processing) is realized in the time domain.
  • This truncation of the impulse response is equivalent to a low-pass filtering of the spectral gain.
  • FIG. 8b clearly shows the effect of this low-pass filtering on the spectral gain: the spectral gain of FIG. 8a is transformed into a gain that varies more slowly, the inter-tone attenuation is relatively limited, however, we observe mainly that areas where the gain had a value of 1 are no longer preserved. These portions generally correspond to harmonic components of the signal that must be preserved.
  • the truncation gain-truncation approach of the impulse response could be used to deal with the circular convolutional folding problem, but it does not guarantee the preservation of the tonal components due to the erosion of the spectral gain. which is however crucial for the quality of the musical signals to be post-processed.
  • W h (k) FFT (w h ), where w h is a symmetric truncation window of length 2 + 1, extended to length N by zero padding, and its normalized version.
  • L 64 samples
  • window w h has a length of 129 samples.
  • FIR (time) filtering using impulse response h (n) truncated by w h will have a delay of L reg samples.
  • Other values of L a are possible, and to reach a delay of 2.5 ms at 12.8 kHz sampling we will take L a - 32 samples.
  • This temporal (or truncation) window of h (n) actually amounts to a convolution of g (k) by the transformation of the truncation window of hn) in the form:
  • the disadvantages of the approach illustrated in FIG. 8b are related to a well-known property in signal processing, namely the inverse relationship between time spreading and frequency spreading.
  • the method of treatment according to the invention provides a solution to the simultaneous search for a time response h (n) compact not generating of annoying artifact by circular convolution, and control of the spectral correction properties of g (k), especially in terms of spectral variations
  • the invention is therefore based on the idea that by constraining the frequency variation of the gain function - again its bilateral decrease (ie towards the higher and lower frequencies) - not to be faster than a certain model or pattern Frequency, we condition favorably the temporal support of its temporal response.
  • the nonlinear regularization of the spectral gain is carried out by controlling the variations of its frequency curve from a predetermined frequency pattern.
  • the spectral pattern from which the regularization is carried out may be a simple weighting function, which has no loss of generality normalized to 1, that is to say having a maximum at 1 and a bilateral decrease. ; this function is in general symmetrical, but it can also be chosen as being asymmetrical around the maximum, for example in the manner of a spectral spreading function for the calculation of a masking curve.
  • the spectral pattern is given by the transform
  • w h is a symmetric truncation window of length 2L reg + 1, extended to the length N by zero padding.
  • the regulated spectral gain is according to the principle of the invention the result of the following equation:
  • the regularization thus consists in adjusting the prototype W h (k) or at a point of the
  • curve g (k) which amounts to shifting (or translating) in frequency the curve of the pattern to center it on the frequency indexed by k, and to apply to it the gain of amplitude g (k).
  • the pattern may be truncated on a neighborhood of a few points containing the most significant values, for example by retaining only the values ee at the indices k such that
  • the regularization step is to retain the maximum value observed at each point when dragging the adjustment of the pattern or prototype on all points of the
  • the spectral gain of FIG. 8b is obtained from the spectral gain of FIG. 8a by sliding this transform on the frequency axis and by making a moving average (or weighted sum) of the local values of gain g (k - S) by the values of W h (S).
  • the spectral gain of FIG. 8c is obtained from the spectral gain of FIG. 8a by sliding this transform on the adjusted frequency axis, in the form and by locally maximizing the values between the spectral gain and this
  • g reg (k) differs from a spectral gain calculation by filtering (or convolution) by the following two points:
  • the regulation according to the treatment method of the invention is therefore a non-linear function.
  • FIG. 8c particularly illustrates the case of gain regularized according to the treatment method of the present invention.
  • the spectral gain is "limited” or “regularized” by adequately to preserve the tonal components of X (k) while reducing circular convolution folding problems.
  • the frequency zones where the gain is close to 1 are preserved in FIG. 8c, whereas the gain variations in FIG. 8c are slower and the attenuation level is sometimes more limited.
  • the function of the spectral gain is to shape the signal, by attenuation of the noise, by compensation of the energy or by the two functions.
  • FIG. 8c corresponds to the case where this regularization (or limitation) relates to the gain g s (f).
  • the transformation of the Hanning window illustrated in FIG. 8c is thus chosen as a frequency pattern.
  • the invention applies similarly to patterns corresponding to windows other than a Hanning window.
  • a relatively wide (spread) time window w h such as for example a rectangular or Tukey type window, in order to have a main lobe of reduced width and thus minimizing the frequency spread of the gain function g reg (k) after regularization.
  • the target spread L is preferably chosen in relation to the zero stuffing.
  • L reg L ola .
  • the value of L reg is an additional parameter (or degree of flexibility) for designing and optimizing post-processing.
  • the post-processing considered here applies to a signal tainted by a high level of CELP coding noise if the coding was performed at a low rate (typically of the order of 12.65 MHz).
  • the value will generally be adapted to the predetermined pattern.
  • the cost of the operation is of the same order as that of a linear convolution on
  • FIG. 8c shows the gain in compactness of the equivalent FIR time response and both the respect of the priority characteristics of the spectral gain function.
  • the gain thus regulated g reg (k) is used by the module 606 for filtering the spectrum X (k) of the audiofrequency signal.
  • the pos-processed spectrum X pos (l ⁇ ) is then subjected to a frequency-time transform (F / T) by the module 607 with, for example, the synthesis window of FIG. 3c, to obtain the post-processed audio frequency signal x pos t (not).
  • the processing steps according to the invention are implemented in the frequency domain on the frequency spectrum of the audiofrequency signal.
  • FIG. 9 graphically translates the time equivalent of the application of the method in the frequency domain, and thus demonstrates the virtual disappearance of circular convolutional signal folding which caused troublesome artifacts (frame or block effects).
  • the temporal support of the window is L ana + L zp . It is planned to operate here the time-frequency transform on a number of samples
  • N L + L sup r érieur to the size L of the analysis window, using the technique of zero padding ( "zero-padding") type or by adding L w here zero samples.
  • the regulation is performed in two passes:
  • this variant can not only control the slope depending on the pattern (or prototype) but it can also "plane” the spectral gain values at the edges of "flat” (areas where the spectral gain is typically at its maximum value. 1).
  • This variant is more complex, but it has the advantage of less widening the peaks of the original spectral gain curve g (k), while controlling the local variations of g (k) according to the prototype and the predefined tolerances ⁇ ( ⁇ ).
  • FIG. 10 illustrates a second embodiment of the device and the treatment method according to the invention.
  • the modules 101, 102, 103, 104 and 105 are identical to the modules 601, 602, 603, 604 and 605 of FIG. 6.
  • An additional stage of transformation of the regularized gain into an impulse response by the module 110 , a windowing at 111, are performed before applying the filtering of the audio frequency signal x (n) by the module 112.
  • the impulse response h reg (n) associated with g reg (k) already has a certain temporal compactness.
  • the time windowing step (block 111) makes it possible to truncate the ends (for example with a quasi-rectangular Tukey window leaving a central part at 1 wide) in order to restrict it to a temporal support of predetermined length.
  • the FIR filtering by the impulse response obtained can be achieved for example by linear convolution in the time domain (block 112).
  • Other FIR filtering implementations are possible, such as fast convolution in the frequency domain and overlap-add (OLA) or overlap-save (OLS) type filtering with or without interpolation of the filter coefficients.
  • OVA overlap-add
  • OLS overlap-save
  • the solution described can be combined with the taking into account of a masking model.
  • a masking curve is calculated from the spectrum, and the gain is regularized (limited) from this curve.
  • FIG. 11 represents an example of a hardware embodiment of a processing device according to the invention. This can be an integral part of an audio-frequency decoder or equipment receiving decoded or non-decoded audio signals.
  • This type of device comprises a PROC processor cooperating with a memory block BM having a memory storage and / or work MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the processing method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the determination steps of the processor.
  • a spectral gain of shaping of the signal to be applied to the audiofrequency signal nonlinear regularization of the spectral gain by controlling the variations of its frequency curve from a predetermined frequency pattern and filtering the audio frequency signal by using the spectral gain and regularized.
  • FIGS. 6 and 10 shows the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
  • the memory MEM stores the predetermined frequency pattern Wn (k) used in the method according to one embodiment of the invention and, in general, all the data necessary for the implementation of the method.
  • Such a device comprises an input module E adapted to receive an audiofrequency signal x (n) and an output module S adapted to transmit the processed signal x post (n).
  • the device thus described may also include the decoding functions in addition to the processing functions according to the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention se rapporte à un procédé de traitement d'un signal audiofréquence comportant les étapes suivantes; détermination (det.g(k)) d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence; régularisation (reg. g(k)) non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel (Wh(k) ou Formule (I) ) prédéterminé; filtrage (606) du signal audiofréquence par utilisation du gain spectral ainsi régularisé. Elle se rapporte également à un dispositif de traitement mettant en œuvre le procédé tel que décrit.

Description

Traitement d'amélioration de la qualité des signaux audiofréquences
La présente invention se rapporte au domaine du traitement des signaux audiofréquences et notamment des signaux de parole ou de musique qui ont été codés et décodés par codeurs et décodeurs de parole.
Le dispositif de traitement audio selon l'invention est adapté notamment pour la transmission et/ou le stockage des signaux audiofréquences. L'invention concerne plus le post-traitement des signaux décodés pour améliorer la qualité des signaux musicaux décodés ou encore le traitement audio comme par exemple les traitements par application d'un gain spectral (dans le domaine temporel ou fréquentiel) pour la réduction de bruit ambiant.
Différentes techniques existent pour convertir sous forme numérique et compresser un signal audiofréquence (parole, musique, etc.). Les techniques les plus courantes dans les services de télécommunications sont les méthodes de codage de forme d'onde, telles que le codage MIC (pour "Modulation par Impulsions Codées") et MICDA (pour "Modulation par Impulsion et Codage Différentiel adaptatif) dits aussi "PCM" ou "ADPCM" en anglais, les méthodes de codage paramétrique par analyse par synthèse comme le codage CELP (pour "Code Excited Linear Prédiction" en anglais), et les méthodes de codage perceptuel en sous- bandes ou par transformée.
Ces techniques traitent le signal d'entrée de façon séquentielle échantillon par échantillon (MIC ou MICDA) ou par blocs d'échantillons dits trames (CELP, codage par transformée).
On s'intéresse ici plus particulièrement au cas du codage CELP comme exemple de codeur-décodeur de parole, cependant l'invention s'applique au cas général des codeurs de parole et audio (ex: MIC, MICDA, CELP, etc..) .
Le codage CELP - dont sa variante appelée ACELP (pour "Algebraic CELP") utilisée par exemple dans les normes 3GPP AMR et AMR-WB - est un codage prédictif fondé sur le modèle source-filtre de production de la parole. Le filtre correspond en général à un filtre tout-pôle de fonction de transfert 1 / A(z) obtenu par prédiction linéaire LPC (pour "Linear Prédictive Coding" en anglais). Le signal est synthétisé à l'aide de la version quantifiée, 1 / Â(z) , du filtre 1 / A(z) . La source - c'est-à-dire l'excitation du filtre linéaire prédictif 1 / Â(z) - est en général représentée comme la combinaison d'une excitation adaptative (obtenue par prédiction long-terme modélisant la vibration des cordes vocales), et d'une excitation fixe (ou innovation) codée efficacement sous la forme de dictionnaires d'impulsions (ACELP), de dictionnaires de bruit, etc. La recherche de l'excitation "optimale" est réalisée par minimisation d'un critère d'erreur quadratique dans le domaine du signal pondéré par un filtre de fonction de transfert W z) dérivée du filtre de prédiction linéaire A(z) , de la forme
Figure imgf000004_0001
On peut noter que dans le codée 3GPP AMR-WB, qui est décrit dans l'article de B. Bessette et al., intitulé "The Adaptive Multirate Wideband Speech Coder (AMR-WB)", IEEE Transactions on Speech, Audio and Language Processing, Nov. 2002, le codage ACELP est en fait appliqué par trames de 20 ms non pas au signal direct échantillonné à 16 kHz mais à un signal pré-accentué échantillonné à 12,8 kHz dans une bande audio réduite (0-6400 Hz); la pré-accentuation (ou pré-emphase) est réalisée par le filtre de fonction de transfert
Figure imgf000004_0003
avec Le filtre de pondération perceptuelle utilisé pour la mise en forme de bruit de
Figure imgf000004_0004
codage est de la forme
Figure imgf000004_0002
Le codage CELP repose sur une approche de codage temporelle et prédictive à partir d'un modèle de signal (LPC); ce type de codage est très efficace sur la parole (propre), mais il donne à bas débit une qualité souvent médiocre pour les cas des signaux s'éloignant des hypothèses du modèle de production de la parole. Ainsi, pour les signaux musicaux ayant une structure composée de composantes tonales qui sont mal codées par un modèle CELP (ex: signaux harmoniques, multipitch, ou inharmoniques, tels que les sons d'orgue, de piano, etc.), il est bien connu qu'un codage par transformée est beaucoup plus adapté.
Des exemples de défauts introduits par le codage CELP pour les signaux musicaux sont listés ci-dessous de façon non exhaustive:
o Pour les signaux très harmoniques, les vallées spectrales entre les composantes tonales ou "tones" sont remplies par le bruit de codage dont la "forme" spectrale globale suit approximativement la réponse en fréquence du filtre .
Figure imgf000004_0005
o Pour les signaux multipitch ou ayant une structure harmonique avec un fondamental en dehors de la gamme de pitch codée, des altérations de la structure harmonique peuvent être observées (y compris l'apparition de fausses harmoniques) - cependant en général les composantes tonales les plus énergétiques sont relativement préservées, surtout en basses fréquences.
Les codeurs de parole de type CELP sont historiquement déployés dans les applications de téléphonie fixe et mobile car ils fournissent une meilleure qualité à bas débit pour les signaux de parole qui sont les signaux les plus importants pour les applications de téléphonie. Cependant, les signaux musicaux ou les contenus mixtes (mélange de parole et musique) représentent malgré tout une classe de signaux importante dans certains cas d'usage tels que la musique d'attente, la tonalité de retour, etc. Il est donc pertinent et important de chercher à améliorer pour la musique et les contenus mixtes la qualité des codeurs de parole qui sont déjà déployés dans les services. La figure 1 montre l'exemple concret d'un signal musical (un son d'orgue) échantillonné à 16 kHz, préfiltré par un masque P.341 (50-7000 Hz) et analysé par FFT à court-terme sur un support de 512 échantillons (32 ms). Le spectre du signal ('sig') sur la trame considérée fait apparaître un certain nombre de composantes tonales (et). Après codage du signal par le codeur AMR-WB à 12,65 kbit/s, le spectre de bruit ('err') correspondant apparaît comme relativement fort entre les composantes tonales. Cette caractéristique du bruit de codage s'explique par le fait que le codage CELP est temporel et met en forme le bruit en principe selon la réponse en fréquence du filtre ,
Figure imgf000005_0003
contrairement à un codage par transformée opérant dans un domaine fréquentiel, le codage CELP ne peut pas "creuser" entre les harmoniques ou composantes tonales aussi appelées tones.
Un exemple de technique améliorant le décodage CELP pour les signaux musicaux est présenté dans l'article de T. Vaillancourt et al. intitulé "Inter-tone noise réduction in a low bit rate CELP décoder", Proc. ICASSP 2009. Cette technique est utilisée dans le mode "bande étroite" de la norme UIT-T G.718. Le principe de cette technique consiste à réaliser un posttraitement dans le domaine fréquentiel (par FFT court-terme) du signal CELP décodé et de réduire le bruit de codage CELP entre les partiels (composantes tonales) par une fonction d'atténuation spectrale et un ajustement de gain (ou d'énergie). Ce post-traitement s'apparente à une réduction de bruit classique par atténuation spectrale à court-terme. Il comporte les étapes suivantes illustrées à la figure 2:
• Une pré-emphase (bloc 201) et une transformation de Fourier discrète (FFT) à court- terme (bloc 202) sont appliquées par trames de 20 ms sur le signal décodé échantillonné à 16 kHz - la FFT a un support temporel de 30 ms (soit une FFT de longueur N =480). Le spectre complexe obtenu est ici noté S(f) , où
/ = 0, · · · , N 12 + 1 , si on ne retient que les fréquences positives (de 0 à 8000 Hz).
• Une classification (bloc 203) du signal CELP décodé afin d'évaluer le niveau de stationnarité dans la trame courante et ajuster la zone de fréquence du posttraitement et le niveau de réduction de bruit maximal.
· Une atténuation du bruit de codage (bloc 204): à chaque trame d'indice temporel t , le niveau de bruit de codage est estimé par sous-bandes critiques d'indice i
Figure imgf000005_0001
(CB pour "Critical Bands" en anglais). Un rapport signal à bruit SNR(f) a posteriori est ensuite estimé par raie fréquentiel le, celui-ci étant défini comme le rapport entre l'énergie du signal décodé et pré-accentué à la raie de fréquence f et l'énergie du bruit dans la bande critique incluant la raie de fréquence f. Une fonction
Figure imgf000005_0002
d'atténuation spectrale gs (f) est finalement calculée raie par raie, en fonction du signal à bruit, et le gain gs(f) est ensuite lissé. De façon récursive pour obtenir
Figure imgf000006_0004
• La correction de l'atténuation (bloc 205) par un gain de correction gcorr(f) pour compenser la perte d'énergie due à l'atténuation spectrale du bloc 204 ainsi que l'atténuation des hautes fréquences par le modèle CELP.
Ainsi, le traitement fréquentiel appliqué au spectre (issu du bloc 202) peut être résumé à :
Figure imgf000006_0001
ou est le gain "global" appliqué au spectre du signal
Figure imgf000006_0002
analysé. On peut ainsi parler d'un gain spectral de mise en forme du signal pour désigner le gain gglob(f) ou encore ses composantes
Figure imgf000006_0003
• La synthèse temporelle (bloc 206) par FFT inverse du spectre du signal post-traité puis l'addition-recouvrement (bloc 207) et la dé-emphase (bloc 208). La technique de Vaillancourt et al. est de complexité raisonnable et elle occasionne un retard additionnel (10 ms) compatible avec les applications conversationnelles. Cependant, elle présente un inconvénient majeur lorsque le retard additionnel est réduit à une valeur entre 1 et -5 ms pour répondre à des contraintes temps-réel de l'application visée ou en raison de contraintes fixées en normalisation. Ce dernier cas se rencontre par exemple dans le cadre de la normalisation EVS au 3GPP SA4 où une version améliorée du codeur AMR-WB est envisagée avec une contrainte de retard algorithmique < 32 ms, cette contrainte inclut une marge implicite (laissée libre à la conception algorithmique) pour le ré-échantillonnage d'entrée sortie à 8, 16, 32 voire 48 kHz ; le codeur AMR-WB existant ayant un retard de 25.9375 ms, une telle contrainte laisse donc une marge de retard additionnel inférieure à 5 ms pour un (post-)traitement d'amélioration. En fonction de l'architecture de codage choisie, cette marge peut même se réduire à une valeur entre 1 à 2.5 ms.
La méthode décrite dans l'état de l'art de "Vaillancourt et al." consiste à réduire le bruit de codage par application d'un facteur (gain) directement dans le domaine spectral (FFT). Il est bien connu de l'homme de l'art que cette opération correspond en fait à un filtrage dans le domaine fréquentiel par convolution circulaire entre le signal décodé, préaccentué et fenêtré, et la réponse impulsionnelle hglob (n) (symétrique) obtenue par FFT inverse à partir du gain spectral g glob(f) .
Le fenêtrage d'analyse-synthèse par FFT court-terme n'est pas détaillé dans l'article de "Vaillancourt et al". Pour réduire le retard de traitement, un fenêtrage adapté peut être prévu. Un exemple de fenêtrage adapté est par exemple illustré aux figures 3a, 3b et 3c. La fenêtre d'analyse wa (n) de la figure 3a est de type Hamming et la fenêtre de synthèse ws (n) de la figure 3c compense la fenêtre d'analyse et inclut une fenêtre d'addition— recouvrement wola (n) à faible retard illustré en figure 3b. Plus précisément, on prend à titre d'exemple les fenêtres suivantes :
La fenêtre d'analyse wa (n) est définie comme une fenêtre de Hamming de longueur
N =512 échantillons, ce qui correspond à 32 ms à 16 kHz:
Figure imgf000007_0002
La fenêtre de synthèse w (n) est définie comme
Figure imgf000007_0003
où l'on a introduit par commodité la quantité D = N - L - Lola d'échantillons ignorés et rendus nuls par le fenêtrage de synthèse, et où la fenêtre wola (n) , m = 0,•••, L + Lola -1 d'addition-recouvrement (OLA pour Overlap-Add en anglais) est définie par:
Figure imgf000007_0001
avec Lola =40 et L =320, soit respectivement 2.5 ms et 20 ms à 16 kHz.
On illustre à la figure 4 l'opération de réduction du bruit de codage dans le domaine fréquentiel à la manière de l'état de l'art de "Vaillancourt et al", en prenant - sans perte de généralité - le fenêtrage des figures 3a, 3b et 3c pour mettre en œuvre l'analyse/synthèse par FFT court-terme.
Le signal x(n) est découpé en trames successives de longueur L et on définit par convention les indices de la trame courante comme n = 0,· · ·, L-l . Pour une fenêtre d'analyse wa (n) de longueur N , on définit le signal fenêtré comme :
Figure imgf000007_0004
qui inclut une partie du signal passé x(n) , n = -Lpast, · · · , -l et la trame courante, x(n) , n = 0, · · · , L - l , avec N = Lpast + L . Ce signal xw(ri) est transformé par FFT sur N points, le spectre discret résultant, X (k) , est multiplié par une fonction de gain spectral g(k) , dont on suppose ici à titre d'exemple qu'il suit le principe du traitement de l'état de l'art de "Vaillancourt et al".
Un exemple de représentation de g(k) est illustré dans l'encadré de la figure 4.
Le spectre X (k) est pondéré par g(k) , Xpost (k) = g (k)X (k) , transformé par FFT inverse (FFT"1) et fenêtrage de synthèse ws (ri) , avant addition-recouvrement, pour obtenir le signal post-traité xpost (n) .
La multiplication de X (k) par g(k) dans le domaine FFT pour obtenir Xpost (k) correspond à une convolution circulaire entre le signal xw (ri) et la réponse impulsionnelle h(n) obtenue par FFT inverse de g(k) . Un exemple de réponse impulsionnelle h(n) correspondant au gain g(k) est illustré dans l'encadré de la figure 4.
Il apparaît que la réponse impulsionnelle h(n) a en général un support temporel étendu de longueur N, et est associée à un retard de filtrage FIR (pour "Finite Impulse
Response" en anglais) non négligeable.
La convolution circulaire dans l'état de l'art de "Vaillancourt et al" introduit en général des défauts de repliement temporel, qui sont d'autant plus audibles que le recouvrement entre fenêtres d'analyse/synthèse est faible.
Ces problèmes de repliement temporel dû à la convolution circulaire sont illustrés plus en détails à la figure 5. Le support temporel (partie non nulle) de la fenêtre et la longueur de la FFT coïncident, soit L = N . Pour l'exemple de signal fenêtré et de réponse impulsionnelle h(n) de la figure 5, la convolution circulaire produit un résidu indésirable
(res.) en comparaison avec une convolution linéaire et ce résidu est amplifié par la forme
« biscornue » de la fenêtre de synthèse ws (ri) qui amplifie la fin du bloc. Ce type de repliement (Rt), conjugué avec la fenêtre optimisée ws (n) pour les contraintes de très faible retard de traitement, conduit à des artéfacts (Artef.) de type effets de bloc et donc un bruit de trame très gênant lorsque le retard (et donc le recouvrement à droite) est faible, de l'ordre de 2.5 ms.
Il existe donc un besoin, pour le post-traitement des signaux décodés, en particulier pour les signaux musicaux, d'une part de préserver le signal et plus particulièrement sa structure harmonique court-terme tout en réduisant efficacement le bruit de codage entre les composantes tonales et d'autre part, de diminuer les artéfacts gênants induit d'un fenêtrage à faible retard. Cette technique doit s'appliquer dans le cas où il n'est pas nécessaire de transmettre (du codeur au décodeur) d'information supplémentaire pour le traitement - on considère en effet ici le cas d'un post-traitement en aveugle au décodeur.
On peut également noter que ce besoin de préserver le signal utile tout en réduisant le bruit (signal non utile), avec des contraintes sur le retard algorithmique, existe également dans d'autres applications de traitement audio comme par exemple les traitements par application d'un gain spectral (dans le domaine temporel ou fréquentiel) pour la réduction de bruit ambiant. La présente invention vient améliorer la situation.
Elle propose à cet effet, un procédé de traitement d'un signal audiofréquence tel qu'il comporte les étapes suivantes:
détermination d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence;
- régularisation non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel prédéterminé;
filtrage du signal audiofréquence par utilisation du gain spectral ainsi régularisé. La régularisation du gain spectral permet ainsi de rendre plus compacte la réponse temporelle correspondante après transformée inverse et ainsi d'éviter les artéfacts gênants d'une convolution circulaire tout en permettant la préservation des composantes tonales du signal audiofréquence.
Le procédé peut s'appliquer par exemple pour un post-traitement de signaux décodés mais aussi pour un traitement de réduction de bruit sur un signal audio à coder. Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de traitement défini ci-dessus.
Le motif fréquentiel est selon un mode général de réalisation une fonction de pondération normalisée à 1.
Le motif présente alors un maximum en 1 et une décroissance bilatérale (vers les fréquences supérieures et inférieures) qui permet de contrôler les variations de la courbe fréquentielle du gain, de façon à ce que ses variations ne soient pas trop brusques.
Dans un mode particulier de réalisation, le motif fréquentiel est déterminé à partir de la transformée d'une fenêtre étendue à une longueur N prédéterminée par bourrage de zéros.
Ce type de motif fréquentiel permet de contrôler la variation fréquentielle de la fonction de gain de façon à ce que sa décroissance bilatérale ne soit pas plus rapide que ce motif. La réponse temporelle correspondante est alors plus compacte.
Une opération de régularisation de moindre complexité est par exemple selon l'équation suivante:
Figure imgf000010_0001
où est le motif fréquentiel prédéterminé.
Figure imgf000010_0002
Dans un autre mode de réalisation, l'étape de régularisation est effectuée en deux passes :
- une passe directe, dans le sens des fréquences croissantes, utilisant la moitié droite décroissante du motif fréquentiel prédéterminé selon une tolérance prédéfinie; - une passe rétrograde, sans le sens des fréquences décroissantes, utilisant la moitié gauche croissante du motif fréquentiel prédéterminé.
Cette méthode, même plus complexe, a l'avantage de moins élargir les pics de la courbe de gain spectral original, tout en contrôlant les variations locales du gain en fonction du motif fréquentiel et de tolérances prédéfinies.
Dans un premier mode de réalisation, les étapes sont mises en œuvre dans le domaine fréquentiel sur le spectre fréquentiel du signal audiofréquence.
Ainsi, le fait d'effectuer ces étapes dans le domaine fréquentiel permet d'éviter des opérations de transformation du gain spectral et réduit ainsi la complexité de traitement.
Dans un deuxième mode de réalisation, le filtrage du signal audiofréquence s'effectue dans le domaine temporel après transformation en réponse impulsionnelle du gain spectral régularisé.
Ce mode de réalisation est intéressant lorsque la longueur de la réponse impulsionnelle est courte. Il évite de plus une étape de pondération du spectre du signal audiofréquence par rapport au mode de réalisation dans le domaine fréquentiel.
La présente invention vise également un dispositif de traitement d'un signal audiofréquence tel qu'il comporte:
un module de détermination d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence;
un module de régularisation non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel prédéterminé; un module de filtrage du signal audiofréquence par utilisation du gain spectral ainsi régularisé.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en œuvre.
L'invention vise aussi un décodeur de signal audiofréquence comportant un dispositif de traitement tel que décrit ci-dessus.
Elle vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de traitement tel que décrit, lorsque ces instructions sont exécutées par un processeur. Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif de traitement, éventuellement amovible, mémorisant un programme informatique mettant en œuvre un procédé de traitement tel que décrit précédemment.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
la figure 1 décrite précédemment, illustre un exemple de spectre court-terme d'un signal musical et du bruit de codage CELP associé;
la figure 2 représente un schéma bloc de la méthode de réduction de bruit de l'état de l'art, telle que décrite précédemment;
les figures 3a, 3b et 3c décrites précédemment, illustrent des exemples de fenêtres temporelles utilisées pour la mise en œuvre des étapes de transformée temps-fréquence ou de transformée inverse;
la figure 4 décrite précédemment, illustre le principe du filtrage dans le domaine fréquentiel selon l'état de l'art;
la figure 5 décrite précédemment explique les effets de bloc par convolution circulaire sur une trame de signal, introduits par une technique de l'état de l'art; la figure 6 illustre un premier exemple de réalisation d'un dispositif de traitement et d'un procédé de traitement selon l'invention;
la figure 7 illustre un exemple de fenêtrage en fonction de la longueur de recouvrement, liée au retard de post-traitement, pouvant être utilisée dans un mode de réalisation de l'invention;
les figures 8a, 8b et 8c représentent les relations entre gain spectral et réponse impulsionnelle associée selon différents traitements dont celui mis en œuvre par l'invention;
la figure 9 illustre l'annulation de l'effet de trame produit par la mise en œuvre du procédé de traitement selon l'invention;
la figure 10 illustre un deuxième exemple de réalisation d'un dispositif de traitement et d'un procédé de traitement selon l'invention; et
la figure 11 illustre un exemple de réalisation matérielle d'un dispositif de traitement selon un mode de réalisation de l'invention.
La figure 6 illustre à présent un premier exemple de réalisation d'un dispositif de traitement mettant en œuvre un procédé de traitement selon l'invention.
Le dispositif de traitement fonctionne ici, dans un exemple de réalisation, sans perte de généralité, à la fréquence d'échantillonnage de 12.8 kHz, qui correspond à la fréquence interne du codage ACELP décrit dans la norme 3GPP AMR-WB ou de façon équivalente dans la recommandation UIT-T G.722.2, afin de minimiser la complexité du post-traitement en termes de nombre d'opérations.
Il est à noter que l'invention est mise en œuvre dans ce mode de réalisation dans les modules 604 à 606 et plus particulièrement dans le module 605 de régularisation de gain.
On suppose ici que le signal xpost (n) issu du traitement ou post-traitement est par la suite combiné avec la synthèse de la bande haute (6400-7000 Hz), décalée dans le temps, du décodeur AMR-WB - ces opérations (décodage bande-haute, ré-échantillonnage à 16 kHz, combinaison) ne sont pas illustrées à la figure 6.
Dans un mode de réalisation privilégié, le post-traitement agit comme un bloc externe (bloc 608) au décodeur (bloc 601) par exemple de type AMR-WB et nécessite de récupérer le signal synthétisé après décodage ACELP en bande basse (0-6400 Hz) du décodeur. Dans une variante du mode de réalisation privilégié, ce dispositif de traitement (bloc 608) peut être directement intégré au décodeur AMR-WB (bloc 601) ou fonctionner sur le signal reconstruit par le décodeur AMR-WB à 16 kHz, incluant l'extension de bande (6400 - 7000 Hz).
Dans des variantes du mode de réalisation privilégié, le post-traitement illustré à la figure 6 pourra être mis en œuvre à la fréquence de 16 kHz après décodage AMR-WB. Par ailleurs le décodeur AMR-WB pourra être remplacé par tout autre type de décodeur de parole et/ou audio, dont les décodeurs CELP et éventuellement des versions modifiées mais compatibles du décodeur AMR-WB standard. De plus le post-traitement pourra être mis en œuvre non pas dans le domaine du signal décodé, mais dans le domaine du signal préaccentué (comme dans le document de l'état de l'art "Vaillancourt et al") ou dans un autre domaine du signal filtrée par un filtre LPC (résidu LPC) ou un filtre de pondération perceptuel.
On détaille ici les étapes du traitement pour le dispositif de la figure 6.
On suppose que le décodeur ACELP du décodeur standard AMR-WB (bloc 601) reconstruit un signal décodé x(n) à la fréquence interne de 12.8 kHz.
Une étape de détermination (det. g(k) ) d'un gain spectral g(k) de mise en forme du signal à appliquer au signal audiofréquence, est effectuée par le module 604 à partir d'une analyse fréquentielle (T/F) effectuée par le module 602 par trame du signal à améliorer et d'une classification du signal par le module 603. On considère ici que la classification (bloc 603) et le calcul du gain (bloc 604) sont mis en œuvre suivant les principes de l'article de l'état de l'art "Vaillancourt et al." avec des adaptations simples qui sont liées à l'analyse temps-fréquence (bloc 602) qui est ici différente et détaillée ci-dessous.
L'analyse spectrale (bloc 602) est ici faite sur la base d'une transformée de Fourier discrète (DFT pour "Discrète Fourier Transform" en anglais) du signal temporel pondéré par une fenêtre d'analyse wa (n) . La DFT est en général avantageusement implantée sous forme d'un algorithme rapide FFT (pour "Fast Fourier Transform" en anglais). En variante, d'autres transformées temps- fréquence peuvent être envisagées, comme la DCT (pour "Discrète Fourier Transform" en anglais), voire la MDCT (pour "Modified Discrète Cosine Transform" en anglais), bien connues de l'homme de l'art.
Le choix de la forme et la taille de la fenêtre d'analyse a un impact important sur la pertinence de l'analyse fréquentielle qui en résulte. Dans le cas illustré sur la figure 3a, une fenêtre de type Hamming définie par :
Figure imgf000013_0002
s'avère relativement intéressante pour ses propriétés spectrales associées, c'est-à-dire que la présence d'une composante tonale stationnaire se manifeste dans le spectre par un lobe principal prédominant centré sur la composante tonale, et des lobes secondaires très peu présents de sorte qu'il n'y a pratiquement pas de risque de confusion entre le bruit de codage à atténuer, et lesdits lobes secondaires qui ne sont que des artefacts de l'analyse lorsqu'il s'agit d'interpréter l'énergie spectrale dans un voisinage de ladite composante tonale.
A l'inverse, le choix d'une fenêtre de type Tukey pour l'analyse induit dans le spectre des lobes secondaires potentiellement gênants pour la détection et le nettoyage du bruit de codage. De façon générale, une fenêtre de type Tukey (symétrique) de longueur peut être énéralisée comme
Figure imgf000013_0001
où est la longueur du recouvrement à gauche et à droite. Des exemples de fenêtre w (ri) de 1^^ =240 échantillons (30 ms à 8 kHz) sont illustrés à la figure 7 pour 4° et 80 (2.5, 5, 10 ms à 8 kHz).
Néanmoins, la présente invention s'applique tout aussi avantageusement avec tout type de fenêtres d'analyse et/ou de synthèse.
Comme l'indiquent les relations entre fenêtres d'analyse wa (ri) , d'addition- recouvrement wola (n) et de synthèse ws (ri) , illustrées par les figure 3a, 3b et 3c, la forme de la fenêtre de synthèse est fortement impactée par le fait que wa (ri) décroît plus vite que la fenêtre d'addition-recouvrement sur leur extrémité commune. La forte bosse sur la fin de la fenêtre augmente les risques d'artefacts liés aux transformations et à la reconstruction du signal. Aussi, un autre type de fenêtre d'analyse peut être envisagé, par exemple des fenêtres de forme asymétrique ayant des valeurs plus fortes sur leur partie droite et plus atténuée sur leur partie gauche. Un exemple particulier en est la fenêtre dite 'hamcos' (comme celle utilisée pour l'analyse LPC dans le codeur AMR-WB), constituée pour ses deux premiers tiers par une demi-fenêtre de Hamming croissante et pour le dernier tiers par une fenêtre cosinus décroissante.
Afin de pouvoir annuler ou atténuer les artefacts de convolution circulaire exposés plus haut, on prévoit d'opérer la transformée temps- fréquence sur un nombre d'échantillons N = Lana + Lzp supérieur à la taille Lana de la fenêtre d'analyse, en utilisant la technique du bourrage de zéro ("zero-padding" en anglais), soit en ajoutant ici Lw échantillons nuls. Dans le cadre de cette invention, on s'attache à s'accommoder d'une taille Lw réduite afin de bénéficier d'une fenêtre d'analyse toujours relativement longue, et donc d'une bonne résolution fréquentielle, sans devoir augmenter la taille N de la transformée et donc sa complexité.
Dans un contexte d'application comme celui de l'amélioration de la qualité des signaux codés par un codeur AMR-WB, le codage cœur (CELP) se fait dans un domaine sous- échantillonné à 12,8kHz, ce qui conditionne la bande passante effective du signal codé (à 6,4kHz). Afin d'optimiser le compromis performance/complexité, on privilégie sans restriction de généralité l'application du procédé dans ce domaine.
Pour le traitement d'une trame de 20 ms, soit 256 échantillons, on se donne pour l'exemple présent une contrainte de retard de 2,5 ms ; l'invention s'applique néanmoins à d'autres valeurs de retard. Considérant une approche d'analyse-synthèse par addition- recouvrement ("overlap-add" ou OLA, en anglais), la longueur du recouvrement est fixée égale au retard, soit Lola =32 échantillons, impliquant une fenêtre de synthèse de taille
L = L + L , =256+32 échantillons. On choisit une taille de FFT égale à la puissance de 2 supérieure, soit N=512 points. Enfin, on se donne un bourrage de zéro d'étendue modérée =64 échantillons soit 5 ms de sorte qu'il reste une taille confortable de Lana = N - L
=488 échantillons pour la fenêtre d'analyse de Hamming. Par commodité, on se donne comme fenêtre implicite d'addition-recouvrement wola (n) le carré d'une fenêtre de Tukey de taille L avec une partie plate centrale de L - 2Lola échantillons (cf figure 7). De là, la fenêtre de synthèse se déduit suivant l'équation :
Figure imgf000014_0001
A noter que le bourrage de zéros est illustré ici en ajoutant les zéros à droite des fenêtres, mais il est totalement équivalent - à un décalage circulaire près - de répartir les zéros de part et d'autre, ou de les placer tous à gauche du bloc analysé. Ainsi, comme expliqué précédemment, dans le mode de réalisation illustré à la figure
6, le calcul du gain d'amélioration ou de mise en forme à partir du spectre suivant la technique de l'état de l'art "Vaillancourt et al." est mis en œuvre avec des adaptations qui concernent la fréquence d'échantillonnage (12.8 kHz ici) et le fenêtrage d'analyse/synthèse choisis. Dans des variantes, on pourra également modifier le calcul de l'énergie moyenne par sous-bandes, la classification, etc. On constate en effet que nombre de précautions prises par "Vaillancourt et al", notamment pour limiter les risques d'artefacts, ont conduit à brider le potentiel d'amélioration du signal, notamment en limitant la zone fréquentielle sur laquelle le gain spectral est appliqué. L'un des avantages de la présente invention est qu'elle permet d'exploiter au maximum les possibilités d'amélioration du signal décodé.
La figure 4 montre dans l'encadré un exemple de gain de correction spectrale (ou gain spectral) calculé pour une trame de signal d'orgue. La transformée inverse de cette fonction spectrale produit une réponse impulsionnelle finie (FIR en anglais), h(n) associée, telle que la multiplication du spectre du signal par cette courbe de gain équivaut dans le domaine temporel à la convolution circulaire du signal analysé xw(n) par ladite réponse impulsionnelle h(n) .
Pour éviter les artefacts de convolution circulaire illustrés à la figure 5, une solution possible serait de tenter de limiter artificiellement l'étendue de la réponse impulsionnelle FIR h(n) en la fenêtrant temporellement - comme représenté à la figure 8b. Cette approche classique n'a cependant pas un effet satisfaisant en termes de performance/contrôle de la correction spectrale. En effet, en comparaison avec la figure 8a qui reprend l'exemple de fonction g(k) de la figure 4, et de la réponse impulsionnelle FIR associée, la figure 8b, illustre un gain spectral gf(k) calculé dans le domaine fréquentiel mais appliqué dans le domaine temporel par convolution linéaire (filtrage FIR) par la réponse impulsionnelle h(n) .
La réponse impulsionnelle h(n) représentée ici (wind.FIR) est en fait tronquée par fenêtrage de type Hanning de longueur inférieure à la taille N de la FFT de manière à limiter le retard du filtrage FIR si le filtrage (post-traitement) est réalisé dans le domaine temporel. Cette troncature de la réponse impulsionnelle est équivalente à un filtrage passe-bas du gain spectral. La figure 8b montre bien l'effet de ce filtrage passe-bas sur le gain spectral: le gain spectral de la figure 8a est transformé en un gain qui varie plus lentement, l'atténuation inter-tones est relativement limitée, cependant on observe surtout que les zones où le gain avait une valeur de 1 ne sont plus conservées. Or ces portions correspondent en général aux composantes harmoniques du signal qu'il faut préserver. Dans ces conditions, l'approche de limitation de gain par troncature de la réponse impulsionnelle pourrait servir à traiter le problème de repliement par convolution circulaire, mais elle ne garantit par la préservation des composantes tonales à cause de l'érosion du gain spectral, ce qui est pourtant crucial pour la qualité des signaux musicaux à post-traiter.
Notons Wh (k) = FFT(wh) , où wh est une fenêtre de troncature symétrique de longueur 2 + 1 , étendue à la longueur N par bourrage de zéros, et sa version normalisée . Pour l'exemple de la figure 8b, on a L = 64 échantillons, et la
Figure imgf000016_0002
fenêtre wh a une longueur de 129 échantillons. Un filtrage FIR (dans le temps) utilisant la réponse impulsionnelle h(n) tronquée par wh aura un retard de Lreg échantillons. D'autres valeurs de L a sont possibles, et pour atteindre un retard de 2.5 ms à 12.8 kHz d'échantillonnage on prendra L a - 32 échantillons.
Ce fenêtrage temporel (ou troncature) de h(n) revient en fait à opérer une convolution de g(k) par la transformée de la fenêtre de troncature de h n) sous la forme :
Figure imgf000016_0001
Afin d'illustrer cette opération de convolution dans le domaine fréquentiel, on a représenté en gras et pointillés (en haut) la transformée normalisée Wh (k) de la fenêtre de troncature
(illustrée en bas). Cette transformée est centrée pour les besoins de l'illustration sur un point de transition caractéristique de la courbe, en haut des figures 8a, 8b, et 8c. Elle se caractérise par un lobe principal d'une certaine largeur, inversement proportionnelle à la largeur effective de la fenêtre temporelle, les lobes secondaires sortant des limites d'affichage car beaucoup plus faibles en amplitude. La convolution a pour effet l'érosion de la courbe de gain spectral, comme l'illustre la figure 8b. On note en effet que là où le gain était de l'ordre de 0 dB sur la représentation du gain g(k) àe la figure 8a, il est significativement rabaissé sur la représentation du gain gconv (k) de la figure 8b. Cela veut dire que les composantes tonales sont dégradées au lieu d'être préservées (ou potentiellement, rehaussées), ce qui est évidemment contraire à l'objectif recherché.
Les inconvénients de l'approche illustrée à la figure 8b sont liés à une propriété bien connue en traitement du signal, à savoir la relation inverse entre étalement temporel et étalement fréquentiel. Le procédé de traitement selon l'invention vient apporter une solution à la recherche simultanée d'une réponse temporelle h(n) compacte ne générant pas d'artefact gênant par convolution circulaire, et la maîtrise des propriétés de correction spectrale de g(k) , en particulier en termes de variations spectrales
On considère en effet ici, le fait que des changements spectraux abrupts suscitent un effet d'étalement temporel. L'invention repose donc sur l'idée qu'en contraignant la variation fréquentielle de la fonction de gain - soit encore sa décroissance bilatérale (i.e. vers les fréquences supérieures et inférieures) - à ne pas être plus rapide qu'un certain modèle ou motif fréquentiel, on conditionne favorablement le support temporel de sa réponse temporelle.
Un mode de réalisation pour le module de régularisation du gain 605, mettant en œuvre l'étape de régularisation non linéaire du gain spectral, est maintenant décrit.
La régularisation non linéaire du gain spectral s'effectue par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel prédéterminé.
D'une façon générale le motif spectral à partir duquel la régularisation est effectuée, peut être une simple fonction de pondération, qui est sans perte de généralité normalisée à 1, c'est-à-dire présentant un maximum à 1 et une décroissance bilatérale ; cette fonction est en général symétrique, mais elle peut également être choisie comme étant asymétrique autour du maximum, par exemple à la façon d'une fonction d'étalement spectral pour le calcul d'une courbe de masquage.
Dans le mode de réalisation privilégié, le motif spectral est donné par la transformée
FFT de longueur N d'une fenêtre de troncature, soit
Figure imgf000017_0001
et wh est une fenêtre de troncature symétrique de longueur 2Lreg + 1 , étendue à la longueur N par bourrage de zéros. A titre illustratif, la fenêtre wh utilisée à la figure 8c est une fenêtre de Hanning de longueur 2L „ + 1 = 129 échantillons, et cette fenêtre est étendue à N =512 échantillons par concaténation de 383 zéros.
Le spectre (ou motif spectral) Wh (k) est contraint par commodité à une phase nulle, et symétrique par rapport à la fréquence nulle, soit
Figure imgf000017_0002
Le gain spectral régularisé est selon le principe de l'invention le résultat de l'équation suivante:
Figure imgf000017_0003
où l'on note qu'en particulier . Cette formule est similaire
Figure imgf000017_0004
au principe d'une convolution dont la définition est rappelée ci-dessus, où la sommation est remplacée par une maximisation et la transformée de la fenêtre est normalisée On peut noter que dans le cas général on pourra utiliser le prototype Wh (k) ou bien . Dans le cas
Figure imgf000018_0001
général, on pourra remplacer si le motif n'est pas forcé à phase nulle.
Figure imgf000018_0002
La régularisation consiste donc à ajuster le prototype Wh (k) ou bien à un point de la
Figure imgf000018_0003
courbe g(k) , ce qui revient à décaler (ou translater) en fréquence la courbe du motif pour le centrer sur la fréquence indicée par k, et à lui appliquer le gain d'amplitude g(k) .
En pratique, comme décrit ultérieurement, le motif pourra être tronqué sur un voisinage de quelques points contenant les valeurs les plus significatives, par exemple en ne retenant que les valeurs àe aux indices k tels que Ainsi,
Figure imgf000018_0004
Figure imgf000018_0005
l'étape de régularisation revient à retenir la valeur maximale observée en chaque point lorsqu'on fait glisser l'ajustement du motif ou prototype sur tous les points de la
Figure imgf000018_0006
courbe g(k) , alors que la convolution revient à calculer la somme des versions du prototype Wh (k) ajustées sur l'ensemble des points de la courbe g(k) .
En d'autres termes, le gain spectral de la figure 8b s'obtient à partir du gain spectral de la figure 8a en faisant glisser cette transformée sur l'axe fréquentiel et en effectuant une moyenne mobile (ou somme pondérée) des valeurs locales de gain g(k - S) par les valeurs de Wh (S) .
En comparaison, le gain spectral de la figure 8c s'obtient à partir du gain spectral de la figure 8a en faisant glisser cette transformée sur l'axe fréquentiel ajustée, sous la forme et en maximisant localement les valeurs entre le gain spectral et cette
Figure imgf000018_0007
transformée ajustée. On voit en effet sur la figure 8c que le gain régularisé suit la pente du motif spectral pour contrôler les variations de sa courbe fréquentielle.
Ainsi, l'invention basée sur le calcul de greg (k) se différencie donc d'un calcul de gain spectral par filtrage (ou convolution) par les deux points suivants:
- l'utilisation d'une fenêtre normalisée
le remplacement de la somme par un opérateur non-linéaire (max). La régularisation selon le procédé de traitement de l'invention est donc une fonction non- linéaire.
Un exemple de résultat pour greg (k) est illustré à la figure 8c. Sur cette figure, comme pour celles des figures 8a et 8b, on a fait apparaître en pointillés la transformée de la fenêtre translatée en une fréquence arbitraire (autour de 4300 Hz).
Figure imgf000018_0008
La figure 8c illustre particulièrement, le cas du gain régularisé selon le procédé de traitement de la présente invention. Ici, le gain spectral est « limité » ou « régularisé » de façon adéquate pour préserver les composantes tonales de X (k) tout en réduisant les problèmes de repliement par convolution circulaire. En comparaison avec la figure 8b, les zones fréquentielles où le gain est proche de 1 (sur la figure 8a) sont préservées à la figure 8c, par contre les variations du gain à la figure 8c sont plus lentes et le niveau d'atténuation est parfois plus limité.
A noter que la limitation ou régularisation du gain spectral faisant l'objet de la présente invention peut être appliquée au gain gs (/) , à sa version lissée ou sa
Figure imgf000019_0001
version corrigée g lob {f) comme défini précédemment. Ainsi, d'une façon générale, le gain spectral a pour fonction de mettre en forme le signal, par atténuation du bruit, par compensation de l'énergie ou encore par les deux fonctions.
L'exemple de la figure 8c correspond au cas où cette régularisation (ou limitation) porte sur le gain gs (f ) .
On décline maintenant ce principe par un algorithme de complexité limitée en ne retenant qu'un motif fréquentiel de longueur du spectre Wh (k) .
Figure imgf000019_0002
Dans un mode de réalisation particulier de l'invention, on choisit ainsi comme motif fréquentiel, la transformée de la fenêtre de Hanning illustrée à la figure 8c.
Cependant, l'invention s'applique pareillement à des motifs correspondant à d'autres fenêtres qu'une fenêtre de Hanning. De par la relation inverse entre étalement temporel et étalement fréquentiel, on pourra en effet choisir une fenêtre temporelle wh relativement large (étalée), comme par exemple une fenêtre rectangulaire ou de type Tukey, afin d'avoir un lobe principal de largeur réduite et ainsi minimiser l'étalement fréquentiel de la fonction de gain greg (k) après régularisation.
L'étalement cible L est choisi de préférence en relation avec le bourrage de zéro.
En supposant que la réponse impulsionnelle associée au gain spectral régularisé greg (k) a un support effectif de longueur L . on vérifie que la convolution circulaire donne le même résultat qu'une convolution linéaire en fixant Lreg = LW I 2 qui correspond ici à une fenêtre wh de 65 échantillons ; cependant pour éviter que la régularisation étale trop la fonction de gain, on a fixé dans l'exemple de la figure 8c l'étalement à Lreg = Lzp , ce qui donne une fenêtre wh de longueur 129 ; avec une telle valeur pour Lreg , le repliement temporel indésirable reste bien atténué. Dans des variantes, on pourra fixer L à d'autres valeurs sans changer le principe de l'invention. En particulier, on pourra envisager qu'aucun bourrage de zéros n'est réalisé et dans ce cas l'étalement cible L „ choisi sera en relation avec la longueur du recouvrement, en fixant typiquement Lreg = Lola . Il ressort que la valeur de Lreg est un paramètre (ou degré de flexibilité) supplémentaire pour la conception et l'optimisation du post-traitement. Il est d'ailleurs important de noter que le post-traitement considéré ici s'applique à un signal entaché par un fort niveau de bruit de codage CELP si le codage a été effectué à bas débit (typiquement de l'ordre de 12,65 kbit/s ou moins pour le codée AMR- WB) ; dans une mesure limitée, le bruit de codage présent dans le signal décodé peut être exploité pour masquer d'éventuels défauts de repliement temporel par convolution circulaire ; ce masquage dépend de l'application considérée (codeur-décodeur, débit, retard admissible, etc.) et peut être pris en compte dans la définition de L „ . Ainsi, le choix de la fenêtre wh
(type, longueur) est un paramètre de régularisation qui apparaît être un avantage en termes de flexibilité de conception et d'optimisation par rapport à l'état de l'art.
Compte-tenu de la dynamique de gain à traiter (de 12dB au maximum sur l'exemple illustré), il suffit de considérer un nombre réduit d'échantillons pour décrire le motif, et on choisit ici sans perte de généralité échantillons de part et d'autre du point central.
Figure imgf000020_0002
La valeur sera en général adaptée au motif prédéterminé.
Une réalisation détaillée de la régularisation (ou limitation) du gain spectral est décrite par le pseudo-code suivant, où les fréquences discrètes sont représentées par des indices k ( 0≤ k < N 72 ) :
Figure imgf000020_0001
Le coût de l'opération est du même ordre que celle d'une convolution linéaire sur
Figure imgf000021_0001
points.
Dans une variante du mode de réalisation décrit ci-dessus, pour économiser des opérations, on pourra focaliser la boucle sur les maxima locaux àe g(k) , et même au-dessus d'un certain seuil.
La figure 8c montre le gain en compacité de la réponse temporelle FIR équivalente et à la fois le respect des caractéristiques prioritaires de la fonction de gain spectral.
De retour à la figure 6, le gain ainsi régularisé greg (k) est utilisé par le module 606 pour le filtrage du spectre X(k) du signal audiofréquence.
Le spectre est multiplié (bloc 606) selon la formule suivante :
XpoJk) = greg (k).X(k)
Le spectre pos-traité Xpos(l<) subit ensuite une transformée fréquence-temps (F/T) par le module 607 avec par exemple la fenêtre de synthèse de la figure 3c, pour obtenir le signal audiofréquence post-traité xpost(n).
Ainsi, dans ce premier mode de réalisation, les étapes de traitement selon l'invention sont mises en œuvre dans le domaine fréquentiel, sur le spectre fréquentiel du signal audiofréquence.
Il y a un intérêt à intervenir directement dans le domaine fréquentiel sans passer par le domaine temporel pour des raisons de complexité. En effet, le passage de la fonction de gain g(&) vers le domaine temporel pour obtenir la réponse temporelle FIR h(n) et la fenêtrer, implique une transformée inverse. Ensuite, le retour au domaine fréquentiel demande encore une transformée directe supplémentaire de hw(n) .
La figure 9 traduit graphiquement l'équivalent temporel de l'application du procédé dans le domaine fréquentiel, et démontre ainsi la quasi-disparition du repliement temporel de signal par convolution circulaire qui causait les artefacts gênants (effets de trame ou de bloc).
En effet, comme illustré, le support temporel de la fenêtre est de Lana + Lzp . Il est prévu d'opérer ici la transformée temps-fréquence sur un nombre d'échantillons
N = L + L sup rérieur à la taille L de la fenêtre d'analyse, en utilisant la technique du bourrage de zéro ("zero-padding" en anglais), soit en ajoutant ici Lw échantillons nuls.
L'étalement cible o est choisi de préférence harmonisé avec le bourrage de zéro, en fixant par exemple Lreg - Lw ou encore Lreg = L 12 . On peut voir que l'application du gain régularisé représenté sous sa forme FIR de réponse temporelle, ne donne plus de résidu indésirable ni à gauche (res.L), ni à droite (res.R). Même avec une forme de la fenêtre de synthèse ws (n) qui amplifie la fin du bloc, la convolution linéaire résultante ne donne pas de termes résiduels dû au repliement (res.conv.R:Rt et res.conv.L:Rt) indésirables.
Le résultat illustré ne montre donc pas d'artefacts gênants (resuit.) de type effet de blocs que l'on pouvait voir en référence à la figure 5.
On présente maintenant une variante de réalisation, plus complexe, pour la régularisation du gain spectral, suivant les mêmes principes mais visant à étaler de façon optimale le gain spectral et donc adoucir les variations sans trop élargir les pics.
Dans cette variante de réalisation, la régularisation est effectuée en deux passes :
1. Une passe directe, dans le sens des fréquences croissantes, utilisant la moitié droite (décroissante) du motif spectral (ou prototype)
2. Une passe rétrograde, sans le sens des fréquences décroissantes, utilisant la moitié gauche (croissante) du motif spectral (ou prototype) Une différence avec la réalisation décrite précédemment est qu'on introduit ici une tolérance sous la forme, , qui permet de contrôler le niveau de régularisation de
Figure imgf000022_0005
façon plus flexible. A noter que cette variante peut non seulement contrôler la pente en fonction du motif (ou prototype) mais elle peut aussi « raboter » les valeurs du gain spectral aux bords des « plats » (zones où le gain spectral est typiquement à sa valeur maximale de 1).
Dans la passe directe on part de la première raie d'indice k et, lorsque le gain spectral reste dans le prototype ajusté selon la tolérance on « saute » les
Figure imgf000022_0004
indices correspondants et on ajuste le gain sous la forme : pour
Figure imgf000022_0002
. Des opérations similaires sont effectuées dans la passe rétrograde.
Figure imgf000022_0003
Cette variante est plus complexe, mais elle a l'avantage de moins élargir les pics de la courbe gain spectral original g (k) , tout en contrôlant les variations locales de g(k) en fonction du prototype et des tolérances prédéfinies ε(ί) .
Figure imgf000022_0006
Cette variante est détaillée dans le peudo-code ci-dessous où l'on exploite ici la symétrie du prototype
Figure imgf000022_0007
Figure imgf000022_0001
Figure imgf000023_0001
Dans une variante de réalisation, la figure 10 illustre un deuxième mode de réalisation du dispositif et du procédé de traitement selon l'invention. Dans ce mode de réalisation, les modules 101, 102, 103, 104 et 105 sont identiques aux modules 601, 602, 603, 604 et 605 de la figure 6. Une étape supplémentaire de transformation du gain régularisé en réponse impulsionnelle par le module 110, un fenêtrage en 111, sont réalisés, avant d'appliquer le filtrage du signal audiofréquence x(n) par le module 112.
Ainsi, la réponse impulsionnelle hreg (n) associée à greg (k) présente déjà une certaine compacité temporelle. L'étape de fenêtrage temporel (bloc 111) permet de tronquer les extrémités (par exemple avec une fenêtre de Tukey quasi-rectangulaire laissant une partie centrale à 1 large) pour la restreindre à un support temporel de longueur prédéterminée. De là, le filtrage FIR par la réponse impulsionnelle obtenue peut être réalisé par exemple par convolution linéaire dans le domaine temporel (bloc 112). D'autres réalisations du filtrage FIR sont possibles, comme une convolution rapide dans le domaine fréquentiel et des filtrages de type overlap-add (OLA) ou overlap-save (OLS) avec ou sans interpolation des coefficients de filtrage. La variante de la figure 9 n'est intéressante, du point de vue de la complexité, que si la longueur de h 0 (n) (tronquée) est suffisamment courte. Cette variante nécessite une FFT inverse sur N points mais elle économise la pondération du spectre (par rapport au premier mode de réalisation au bloc 606 de la figure 6).
De façon équivalente, dans une variante, on pourra effectuer la troncature de la réponse impulsionnelle h (n) directement dans le domaine fréquentiel, en filtrant (convoluant) le gain régularisé greg (k) par la transformée d'une fenêtre de troncature de longueur prédéterminée, comme une étape supplémentaire dans le bloc 605, après calcul de
Dans un mode possible de réalisation du procédé selon l'invention, pour la décroissance du gain, la solution décrite peut être combinée avec la prise en compte d'un modèle de masquage. Ainsi, dans une variante de l'invention, une courbe de masquage est calculée à partir du spectre, et le gain est régularisé (limité) à partir de cette courbe.
On peut noter que le mode de réalisation principal de l'invention s'est basé sur le codeur AMR-WB (ou de façon équivalente G.722.2), néanmoins l'invention s'applique à tout type de codeur de parole et audio, en particulier à d'autres codeurs de type CELP tels que 3GPP AMR, UIT-T G.729 qui fonctionnent à 8 kHz ; dans ce cas les paramètres de fenêtrage, longueur de trame, taille de FFT, etc. peuvent être adaptés en fonction des contraintes de l'application. La figure 11 représente un exemple de réalisation matérielle d'un dispositif de traitement selon l'invention. Celui-ci peut faire partie intégrante d'un décodeur audiofréquence ou d'un équipement recevant des signaux audiofréquences décodés ou non.
Ce type de dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de traitement au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de détermination d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence, de régularisation non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel prédéterminé et de filtrage du signal audiofréquence par utilisation du gain spectral ainsi régularisé.
Typiquement, la description des figures 6 et 10 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.
La mémoire MEM enregistre le motif fréquentiel Wn(k) prédéterminé utilisé dans le procédé selon un mode de réalisation de l'invention et de manière générale, toutes les données nécessaires à la mise en œuvre du procédé.
Un tel dispositif comporte un module d'entrée E apte à recevoir un signal audiofréquence x(n) et un module de sortie S apte à transmettre le signal traité xpost(n).
Dans un mode possible de réalisation, le dispositif ainsi décrit peut également comporter les fonctions de décodage en plus des fonctions de traitement selon l'invention.

Claims

REVENDICATIONS
1. Procédé de traitement d'un signal audiofréquence, caractérisé en ce qu'il comporte les étapes suivantes:
détermination (det.g(k)) d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence;
régularisation (reg. g(k)) non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel (Wh(k) ou )
Figure imgf000026_0003
prédéterminé;
filtrage (606) du signal audiofréquence par utilisation du gain spectral ainsi régularisé.
2. Procédé selon la revendication 1, caractérisé en ce que le motif fréquentiel prédéterminé est une fonction de pondération normalisée à 1.
3. Procédé selon la revendication 2, caractérisé en ce que le motif fréquentiel (Wh(k)) est déterminé à partir de la transformée d'une fenêtre étendue à une longueur N prédéterminée par bourrage de zéros.
4. Procédé selon la revendication 2, caractérisé en ce que le gain spectral régularisé (greg(k)) est le résultat de l'équation suivante:
Figure imgf000026_0001
où est le motif fréquentiel prédéterminé.
Figure imgf000026_0002
5. Procédé selon la revendication 1, caractérisé en ce que l'étape de régularisation est effectuée en deux passes :
- une passe directe, dans le sens des fréquences croissantes, utilisant la moitié droite décroissante du motif fréquentiel prédéterminé selon une tolérance prédéfinie;
- une passe rétrograde, sans le sens des fréquences décroissantes, utilisant la moitié gauche croissante du motif fréquentiel prédéterminé.
6. Procédé selon la revendication 1, caractérisé en ce que les étapes sont mises en œuvre dans le domaine fréquentiel sur le spectre fréquentiel du signal audiofréquence.
7. Procédé selon la revendication 1, caractérisé en ce que le filtrage du signal audiofréquence s'effectue dans le domaine temporel après transformation en réponse impulsionnelle du gain spectral régularisé.
8. Dispositif de traitement d'un signal audiofréquence, caractérisé en ce qu'il comporte:
un module de détermination (604) d'un gain spectral de mise en forme du signal à appliquer au signal audiofréquence;
un module de régularisation (605) non linéaire du gain spectral par contrôle des variations de sa courbe fréquentielle à partir d'un motif fréquentiel (Wh(k) ou ) prédéterminé;
Figure imgf000027_0001
un module de filtrage (606, 112) du signal audiofréquence par utilisation du gain spectral ainsi régularisé.
9. Décodeur de signal audiofréquence caractérisé en ce qu'il comporte un dispositif de traitement selon la revendication 8.
10. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de traitement selon l'une des revendications 1 à 7, lorsque ces instructions sont exécutées par un processeur.
11. Support de stockage lisible par un dispositif de traitement sur lequel est enregistré un programme informatique comprenant des instructions de code pour l'exécution des étapes du procédé de traitement selon l'une des revendications 1 à 7.
PCT/FR2013/051647 2012-07-10 2013-07-10 Traitement d'amelioration de la qualite des signaux audiofrequences WO2014009657A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1256641A FR2990552A1 (fr) 2012-07-10 2012-07-10 Traitement d'amelioration de la qualite des signaux audiofrequences
FR1256641 2012-07-10

Publications (1)

Publication Number Publication Date
WO2014009657A1 true WO2014009657A1 (fr) 2014-01-16

Family

ID=47191878

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2013/051647 WO2014009657A1 (fr) 2012-07-10 2013-07-10 Traitement d'amelioration de la qualite des signaux audiofrequences

Country Status (2)

Country Link
FR (1) FR2990552A1 (fr)
WO (1) WO2014009657A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935834A (zh) * 2024-03-12 2024-04-26 深圳市声优创科技有限公司 一种音频智能降噪方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CH.V RAMA RAO ET AL: "Noise Reduction Using mel-Scale Spectral Subtraction with Perceptually Defined Subtraction Parameters- A New Scheme", SIGNAL & IMAGE PROCESSING : AN INTERNATIONAL JOURNAL, vol. 2, no. 1, 22 March 2011 (2011-03-22), pages 135 - 149, XP055048729, ISSN: 2229-3922, DOI: 10.5121/sipij.2011.2110 *
LUKIN ALEXEY ET AL: "Suppression of Musical Noise Artifacts in Audio Noise Reduction by Adaptive 2-D Filtering", AES CONVENTION 123; OCTOBER 2007, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 5 October 2007 (2007-10-05), XP040508312 *
MICHAEL Z. LIVSHITZ ET AL: "An Overcomplete WDFT-based Perceptually Constrained Variable Bit Rate Wideband Speech Coder with Embedded Noise Reduction System", SPECOM'2006, 25 June 2006 (2006-06-25), St. Petersburg, pages 343 - 348, XP055048723, Retrieved from the Internet <URL:http://www.eurasip.org/Proceedings/Ext/SPECOM2006/papers/061.pdf> [retrieved on 20130107] *
WEERAWUT THANHIKAM ET AL: "Noise suppression based on replacement of zero phase signal", INTELLIGENT SIGNAL PROCESSING AND COMMUNICATIONS SYSTEMS (ISPACS), 2011 INTERNATIONAL SYMPOSIUM ON, IEEE, 7 December 2011 (2011-12-07), pages 1 - 4, XP032114737, ISBN: 978-1-4577-2165-6, DOI: 10.1109/ISPACS.2011.6146164 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935834A (zh) * 2024-03-12 2024-04-26 深圳市声优创科技有限公司 一种音频智能降噪方法及设备
CN117935834B (zh) * 2024-03-12 2024-05-28 深圳市声优创科技有限公司 一种音频智能降噪方法及设备

Also Published As

Publication number Publication date
FR2990552A1 (fr) 2013-11-15

Similar Documents

Publication Publication Date Title
EP3020043B1 (fr) Facteur d&#39;échelle optimisé pour l&#39;extension de bande de fréquence dans un décodeur de signaux audiofréquences
RU2390856C2 (ru) Системы, способы и устройства для подавления высокополосных всплесков
KR101436715B1 (ko) 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들
EP1989706B1 (fr) Dispositif de ponderation perceptuelle en codage/decodage audio
EP2115741B1 (fr) Codage/decodage perfectionnes de signaux audionumeriques
EP3014611B1 (fr) Extension améliorée de bande de fréquence dans un décodeur de signaux audiofréquences
EP3103116B1 (fr) Extension ameliorée de bande de fréquence dans un décodeur de signaux audiofréquences
EP2452337B1 (fr) Allocation de bits dans un codage/décodage d&#39;amélioration d&#39;un codage/décodage hiérarchique de signaux audionumériques
EP2951813B1 (fr) Correction perfectionnée de perte de trame au décodage d&#39;un signal
EP2867893B1 (fr) Atténuation efficace de pré-échos dans un signal audionumérique
EP2452336B1 (fr) Codage/décodage perfectionne de signaux audionumériques
EP3084959B1 (fr) Ré-échantillonnage d&#39;un signal audio cadencé à une fréquence d&#39;échantillonnage variable selon la trame
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
WO2007107670A2 (fr) Procede de post-traitement d&#39;un signal dans un decodeur audio
EP3167447B1 (fr) Mise a jour des états d&#39;un post-traitement a une fréquence d&#39;échantillonnage variable selon la trame
WO2014009657A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences
WO2011144863A1 (fr) Codage avec mise en forme du bruit dans un codeur hierarchique
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13756562

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13756562

Country of ref document: EP

Kind code of ref document: A1