WO2014199055A1 - Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion - Google Patents
Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion Download PDFInfo
- Publication number
- WO2014199055A1 WO2014199055A1 PCT/FR2014/051364 FR2014051364W WO2014199055A1 WO 2014199055 A1 WO2014199055 A1 WO 2014199055A1 FR 2014051364 W FR2014051364 W FR 2014051364W WO 2014199055 A1 WO2014199055 A1 WO 2014199055A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- attenuation
- noise
- signal
- quantization noise
- quantization
- Prior art date
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 95
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 238000007906 compression Methods 0.000 title claims abstract description 13
- 230000006835 compression Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 239000004283 Sodium sorbate Substances 0.000 claims abstract description 3
- 239000004303 calcium sorbate Substances 0.000 claims abstract description 3
- 239000004302 potassium sorbate Substances 0.000 claims abstract description 3
- 230000000873 masking effect Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 16
- 238000012805 post-processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000007480 spreading Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 241001123248 Arma Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000661 sodium alginate Substances 0.000 description 2
- 235000010413 sodium alginate Nutrition 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 239000000728 ammonium alginate Substances 0.000 description 1
- 235000010407 ammonium alginate Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 239000000648 calcium alginate Substances 0.000 description 1
- 235000010410 calcium alginate Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000737 potassium alginate Substances 0.000 description 1
- 235000010408 potassium alginate Nutrition 0.000 description 1
- 239000000770 propane-1,2-diol alginate Substances 0.000 description 1
- 235000010409 propane-1,2-diol alginate Nutrition 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Definitions
- the present invention relates to the control of signal processing, in particular digital audio signals in the telecommunications field. These signals can be speech, music or other signals.
- the rate needed to pass an audio signal with sufficient quality is an important parameter in telecommunications.
- audio coders have been developed in particular to compress the amount of information necessary to transmit a signal.
- Some encoders achieve particularly high information compression rates. Such coders generally use advanced information modeling and quantification techniques. Thus, such encoders transmit only models or partial data of the signal.
- the decoded signal although not identical to the original signal (since some of the information has not been transmitted due to the quantization operation), nevertheless remains very close to the original signal.
- quantization noise or "coding noise”.
- coding noise We can also speak of "distortion” introduced by the coding / decoding.
- quantization noise reduction systems which comprise a first quantization noise estimation module according to different techniques and a second noise reduction processing module on the decoded signal (which constitutes the input signal of the module). ), based on this estimate.
- the problem of these systems is to find a compromise between a too strong reduction which can degrade the useful signal and a reduction too low which retains the useful signal but leaves the audible noise signal. This problem is even more true when the useful signal is complex, for example when it is composed of a mixture of speech and ambient noise.
- a post-filtering solution is for example described in the document by the authors J-L.Garcia, C.Marro and B.Kovesi, entitled "a PCM coding noise reduction for ITU-T G.711.1", in Interspeech 2008, for an ITU-T G.711 standard type encoder.
- this document proposes to limit the aggressiveness of the noise reduction treatment by limiting the maximum attenuation, for example at -6 dB and to keep the post-filtered signal in the quantization interval of the MIC scalar quantizer (Pulse and Coding Modulation).
- the present invention improves the situation.
- the method proposes a method for controlling a quantization noise attenuation processing of a decoded digital audio signal, the quantization noise being generated by a compression coding comprising a quantization operation, the method comprising a step of obtaining an estimate of the quantization noise from a signal available to the decoder.
- the method is such that it comprises the following steps:
- the control of the attenuation of the processing is carried out in a precise manner so as to best adapt the attenuation of the noise to the decoded signal.
- the use of a psycho-acoustic criterion to determine the attenuation levels makes it possible to obtain a strong attenuation of the coding noise for a speech signal (where the quantization noise is particularly audible) and a low or no attenuation for recordings with background noise for which the quantization noise is not audible (because masked by background noise).
- This implementation is adapted to different types of compression coding and is therefore not limited to MIC or ADPCM type coding.
- the psychoacoustic criterion is a masking curve
- the method further includes a step of comparing the quantization noise estimate with the masking curve to determine the decoded signal frame levels. of attenuation to be applied to the noise attenuation processing of the decoded signal.
- the comparison between the estimation of the quantization noise and the masking curve makes it possible to determine the locations of the signal where the quantization noise can be masked and thus makes it possible to better adapt the attenuation levels to be applied to the processing of the signal. attenuation of the noise of the decoded signal.
- the comparison step determines a number of coefficients of the estimated quantization noise, greater than the masking curve, the determination of the attenuation levels per signal frame being a function of the number of coefficients determined.
- the noise attenuation processing is inhibited by a zero attenuation level when the number of determined coefficients is less than a predetermined threshold.
- the audio signal when the audio signal is a background noise recording or a musical recording, it masks the quantization noise that does not need to be attenuated.
- the comparison between the estimated noise and the masking curve makes it possible to define the frames which have this characteristic and to inhibit in this case the attenuation treatment which is therefore not necessary. This therefore decreases the overall complexity of the processing and avoids the degradation of the useful signal by the noise attenuation post-processing.
- the comparison step determines a level difference between the estimated quantization noise and the masking curve for the estimated noise coefficients greater than the masking curve, the determination of the levels of noise. attenuation to be applied to the noise attenuation processing being a function of the value of this difference.
- characteristics representative of the attenuation levels determined for the current frame are stored and the attenuation levels of the current frame are further determined according to the characteristics of the attenuation levels stored for a given frame. predetermined number of previous frames.
- the invention applies perfectly in the case of an ADPCM type coding but can also be applied for other types of coding in audio compression.
- the present invention also relates to a device for controlling a quantization noise attenuation processing of a decoded digital audio signal, the quantization noise being generated by a compression encoder comprising a module quantization, the device receiving an estimate of the quantization noise from a signal available to the decoder by an estimation module.
- the device is such that it comprises:
- a signal frame determining module of an attenuation level to be applied to the noise attenuation processing of the decoded signal, as a function of the estimate of the quantization noise received and the determined psycho-acoustic criterion.
- This device has the same advantages as the method described above, which it implements.
- the invention also relates to a device for post-processing a decoded digital audio signal, which comprises:
- a filtering module performing attenuation processing of the decoded signal with the attenuation levels coming from the control device.
- It relates to a computer program comprising code instructions for the implementation of the steps of the control method as described, when these instructions are executed by a processor.
- the invention relates to a storage medium, readable by a processor, integrated or not to the control device, possibly removable, storing a computer program implementing a control method as described above.
- FIG. 1 schematically illustrates the general structure of a codec comprising a quantization noise attenuation post-processing module and an attenuation attenuation control device according to an embodiment of the invention. invention
- FIG. 2 illustrates in flowchart form the main steps of an attenuation control method according to one embodiment of the invention
- FIG. 3 illustrates an ADPCM type coding for which the method and the device according to the invention can be implemented
- FIG. 4 illustrates a particular embodiment of the control method according to the invention, for a standardized ITU-T G.722 coded type
- FIG. 5 illustrates the windows implemented for calculating a power spectral distribution for the implementation of the attenuation control method according to one embodiment of the invention
- FIG. 6a illustrates a modeling in the Barks domain of an elementary masking function used to define a masking curve in one embodiment of the invention
- FIG. 6b illustrates a masking curve representing a psychoacoustic criterion in one embodiment of the invention
- FIG. 7 illustrates an example of rules for taking into account the characteristics representative of the attenuation levels of the preceding frames to determine the attenuation to be applied to the current frame
- FIG. 8 represents a table indicating the percentage of frames for which the noise attenuation treatment has been implemented as a function of the parameters of the control system according to the invention for two categories of signals (bottom values for the sampling samples). clean speech and top values for mixed content samples); and
- FIG. 9 illustrates an example of a hardware embodiment of a control device according to one embodiment of the invention.
- a signal s (n) is coded in compression by a coder COD comprising a quantization operation Q.
- This coded signal is transmitted via a transmission channel CA and then decoded by a decoder DEC homologous to the coder COD.
- the signal thus decoded, denoted x (n) then has a quantization noise b (n) which is defined mathematically as a difference ⁇ s (n) - x (nj).
- a quantization noise attenuation processing unit TBQ is provided downstream of the decoder DEC to suppress or at least limit the quantization noise (to make it less audible) in the signal x (n).
- the processing unit comprises a BQ module for estimating the quantization noise B (f).
- This estimation can be made from the decoded signal x (n) (as was the case for the MIC type coding in the article already cited) and / or possibly from an intermediate signal (I) from the decoder or still from the bitstream (7) received at input E.
- Each coefficient of B (f) gives the power of the noise in the corresponding frequency band f.
- the DC processing control device receives as input the estimation of the coding noise and comprises a module NA for determining the attenuation levels per band of frequency to be applied to quantization noise attenuation processing. This determination is made from the estimated noise B (f), a psycho-acoustic criterion M (f) determined by the module PA and possibly the spectral power distribution of the decoded signal X (f).
- the attenuation levels thus determined make it possible to adjust the parameters of the FILT filter which applies to the decoded signal x (n), performs the noise attenuation processing. In the case where the DC device determines a zero attenuation level for all the frequency bands, this amounts to inhibiting filtering of the FILT module.
- the post-processed signal x '(n) is provided at the output S of the processing device TBQ.
- FIG. 2 illustrates in flowchart form the main steps of a method of controlling quantization noise attenuation processing, according to one embodiment.
- step E201 an estimate of the quantization noise is made from the decoded signal x (n) and / or optionally from an intermediate signal (J) originating from the decoder or from the bit stream ( 7) received (I and T are not shown in Figure 2).
- This estimate of the quantization noise is provided at the input of the DC control device of FIG.
- the estimation of the quantization noise B (f) can be carried out, for example, according to the estimation technique described in the document "PCM coding noise reduction for ITU-T G.711.1" referenced above where the variance of the coding noise is estimated from the variance of the decoded signal of the current frame, the spectral shape being assumed to be white.
- the variance of the coding noise is constant (using the linear part of the PCM quantizer).
- the variance of the coding noise is correlated and approximately proportional to that of the decoded signal (using the logarithmic portion of the PCM quantizer, the signal-to-noise ratio is approximately constant).
- a relatively accurate estimate of the quantization noise can be made in analogy with the technique used for a PCM encoder.
- the quantizer of an ADPCM encoder is also a log-type quantizer multiplied by a scale factor that encodes the prediction error.
- the quantization noise variance is correlated and approximately proportional with the variance of the decoded prediction error.
- the division of the variance of the prediction error decoded by a constant obtained by learning makes it possible to make a relatively accurate estimate of the coding noise variance.
- the spectral shape of the coding noise is also assumed to be white.
- the decoded prediction error is for example obtained from intermediate calculations performed at the decoder or obtained by partially decoding the bit stream received.
- the noise estimation module uses as input either an intermediate signal from the decoder (the decoded prediction error) or the received bit stream.
- a step of obtaining a psycho-acoustic criterion is carried out.
- This psycho-acoustic criterion can be defined as a limit beyond which the noise is audible by the human ear.
- An example of a psychoacoustic criterion is a masking curve.
- Psycho-acoustic masking is indeed a perceptual phenomenon where a sound can potentially be unperceived in the presence of another, in this case the first sound is masked. It is a spectral phenomenon but also temporal. Numerous modelizations of the phenomenon exist, one can quote for example the modelization by filters with distribution gammatone of the authors G.Charestan, R.Heusdens and S.van of Par in the document entitled "a Gammatone-based psychoacoustical modeling approach for speech and audio coding "in Proceedings ProRISC / IEEE: Workshop on Circuits, Systems and Signal Processing, Veldhoven, the Netherlands, 2001.
- Perceptual weighting filters are known in the state of art, they are obtained after an analysis LPC ("Linear Predictive Coding") centered on the current frame. Perceptual weighting filters are used in virtually all CELP encoders.
- the masking curve calculation examples cited calculate the masking curve from the original signal s (n), which is not available at the decoder. Nevertheless, the decoded signal x (n) being very close to the original signal s (n), an estimation of the masking curve can therefore be made to the decoder by using these techniques from the decoded signal x (n). This is the case illustrated in Figure 2.
- the psycho-acoustic criterion used can also be determined from an intermediate signal (I) from the decoder or from the received bit stream (I) and T (not shown). in Figure 2).
- a perceptual weighting filter W (z) can be obtained from the LPC filter A (z) quantized and encoded in the received bitstream.
- a step E203 is implemented to determine the attenuation levels per frequency band / "of the attenuation processing to be applied to the decoded signal x (n).
- This step of determining the attenuation levels to be applied takes into account, for example, the comparison of the estimation of the quantization noise with the masking curve or the comparison of the spectrum of the quantization noise with the frequency response of a filter. perceptual weighting.
- the quantization noise when for example the quantization noise is greater than the masking curve, it means that it is not completely masked and that attenuation of this quantization noise is then to be performed.
- the attenuation levels are then modulated, for example as a function of the number of coefficients of the quantization noise greater than this masking curve.
- the maximum permitted attenuation may be limited as a function of the number of coefficients of the quantization noise greater than this masking curve.
- the quantization noise is less than the masking curve (or the spectrum less than the frequency response of the perceptual filter) at least for the majority of the coefficients, then it means that this quantization noise is masked and that a mitigation treatment is not necessary.
- the attenuation level can then be determined to be zero for the entire frequency band. This then corresponds to an inhibition of the attenuation treatment.
- Another factor than the number of quantization noise coefficients greater than this masking curve can be used to modulate the attenuation filter according to the psychoacoustic criterion. For example, for the coefficients where the quantization noise is greater than the masking curve, the difference B (f) -M (f) is added in dB of these coefficients, and the sum obtained is compared with predetermined thresholds. A small value of this sum means that even if in certain frequency bands the noise is greater than the mask, these two signals are very close. This means that the noise is very slightly audible and the attenuation must be limited.
- the determined attenuation levels make it possible to calculate the parameters of the attenuation filter performing the quantization noise attenuation processing in step E204.
- the resulting signal x '(n) is then a post-processed signal in which the quantization noise is not or little audible.
- ADPCM or ADPCM (Adaptive Differential Pulse Code Modulation) technology is a technique for compressing multimedia signals.
- Examples of the best-known and most widely used ADPCM encoders are two ITU-T (International Telecommunication Union) standard speech coders: the ITU-T G.726 coder for voiceband signals ( or narrowband) sampled at 8 kHz (DECT coder for "Digital Enhanced Cordless Telecommunications") and the ITU-T G.722 encoder for wideband signals sampled at 16 kHz (HD voice coder for VoIP).
- the ADPCM coding is a predictive coding where the current sample is predicted by an ARMA type adaptive predictor (for "Auto Regressive Moving Average") from the decoded past values.
- an ARMA type adaptive predictor for "Auto Regressive Moving Average” from the decoded past values.
- Qa 1 a local inverse quantizer
- the decoder can make the same prediction as the encoder.
- the adaptation of the predictor is also made from the decoded values (of the decoded signal and the decoded prediction error), sample by sample, without additional transmission of information.
- the coded amplitude of the prediction error is composed of 2 parts: a constant part y (I (n)) stored in ROM memory indexed by the scalar quantization values and a multiplicative adaptive factor v (n) (in the domain linear) called scale factor, whose adaptation is made without additional transmission of information, sample by sample, according to the transmitted quantization index.
- a multiplicative adaptive factor v (n) in the domain linear) called scale factor
- These scalar quantization indices are decomposed into a sign bit sign (n) and an amplitude quantization index I (n).
- the decoder To decode the bitstream, the decoder (DECOD) performs sample-to-sample inverse quantization of the prediction error using the inverse adaptive quantizer (Qa 1 ). The decoder also makes the same prediction of the current sample as that made to the encoder, using the same ARMA adaptive predictor (Pred.A) (in the absence of transmission errors) adapted sample by sample. In case of errors of transmission, the predictor and the quantizer at the decoder diverge from those at the encoder.
- Pred.A ARMA adaptive predictor
- the decoded value of the current sample is obtained by adding the prediction and the dequantized value of the prediction error.
- the predictions do not provide any additional error because they are done in parallel from the decoded signal.
- the embodiment described hereinafter is given for a control of a low band quantization noise attenuation processing post-filter of a ITU-T G.722 standard-type encoder.
- a low band quantization noise attenuation processing post-filter of a ITU-T G.722 standard-type encoder is for example described in document ITU-T G.722, 7 kHz audio coding within 64 kbit / s, Sep. 2012.
- the signal of the low subband is indeed encoded by an independent ADPCM encoder.
- FIG. 4 shows the detailed steps of the control method in this embodiment.
- This type of windowing is illustrated with reference to FIG. 5 where the signal (x (n)), the asymmetric Hanning windows (fen.) And the frame boundaries (Mm.) Can be seen.
- the arrow shown in the figure represents the overlap.
- This window ensures continuity and has the advantage of not introducing additional delay because it does not require knowledge of the samples belonging to the next frame.
- windows can also be used, such as a 72-sample balanced Hamming window centered on the frame, also covering 16 samples of the next frame ("Lookahead" in English). The use of such a window will however increase the algorithmic delay by the duration of 16 samples (2 ms with the sampling frequency of 8000 Hz).
- step E401 of FIG. 4 a calculation of the power spectral distribution X (f) of this 64-point windowed frame according to equation (2) is also performed. below. Only the first 32 coefficients are kept, this because of the symmetry of this transform. (2)
- step E402 the mask M (f) is calculated by using the implementation of the Schroeder model presented in the aforementioned document by the authors Y.Mahieux & J-P. Small.
- the associated spreading curve M is calculated ; (/) in the field of Barks.
- Bark scale (after Barkhausen) is a logarithmic division of audible frequencies (from 20 Hz to 22 kHz) into 24 critical bands that are much more revealing of auditory perception than the linear scale in Hertz.
- the elementary masking function M t (f), also called the basilar membrane spreading curve, is estimated in the Barks domain by a simple geometrical shape represented in FIG. 6a. This modeling, instead of being triangular as usual, is here trapezoidal.
- M t (f) is estimated in the Barks domain by a simple geometrical shape represented in FIG. 6a. This modeling, instead of being triangular as usual, is here trapezoidal.
- a critical band around the frequency f we have a plateau at ⁇ ⁇ under X (f). Below the critical band, there is a decrease of -27dB / Barks and above the critical band, a decrease of -10dB / Barks. For the center frequency f of the spreading curve, a zero masking is considered.
- each spreading curve is retransformed in the frequency domain.
- This simple-form spreading curve in the Barks domain is more complex in the Hz domain. It is approximated by a linear function per piece, each piece corresponding to a critical band and the central band.
- the total mask M (f) is their sum.
- FIG. 6b represents in dashed line this masking curve M (f) in comparison with the power spectral distribution X (f) represented in full lines.
- the masking curve has been determined from the decoded signal.
- the bitstream received by the decoder may contain other types of signals which make it possible to determine the masking curve.
- the masking curve can be derived from the quantized spectral envelope. This is the case for example in the TDAC encoder described in Y.Mahieux & J-P. Small caption "High-quality audio transform coding at 64kbps", in IEEE Transactions on Communications, vol.42, no.11, november 1994.
- a quantized version of the masking curve can also be transmitted in the bit stream.
- an estimate of the masking curve can be obtained from the signals available at the decoder.
- step E403 of FIG. 4 a comparison c k is performed between the masking curve M (f) and the estimated quantization noise B (f).
- This state is for example stored in memory at step E404 for each signal frame thus compared.
- a decision d k on the maximum level of attenuation to be applied to the post-treatment is then taken in step E405.
- This decision may also include a state of activation (or deactivation) of the post-filter, called r k .
- the decision d k can have 3 different values.
- This decision d k can be obtained according to the current state c k of the current frame but can also take into account the p states of the previous frames c j ⁇ ⁇ k _ p . k _ ⁇ and the previous decision d k _ x by a hysteresis mechanism. These characteristics are representative of the attenuation levels determined for the previous frames.
- a first decision is taken on r k , the activation state of post-filtering.
- This intermediate decision makes it possible to qualify the variation of attenuation, the passage from a deactivated filtering to a limitation at 12 dB that can be badly perceived.
- the hysteresis mechanism works like this:
- This hysteresis causes a delay of p frames to change state, but the frames being very short, we only have a delay of 5 * p ms.
- continuity is maintained, avoiding problems of alternating activation and deactivation that could be untimely, or too abrupt changes in attenuation levels.
- the second decision step (dec dk ) takes into account the current value of r k and the previous value r k _i to determine the decision d k .
- hysteresis could of course be chosen, less strict.
- the decision r k could be chosen according to the majority of c k previous.
- the presented system was developed for a G.722 low band quantization noise reduction system.
- oc, ⁇ ⁇ and p are parameters of the control system thus described. They have been determined in order to solve the following constraint: activate the post-filtering when one is certain of its efficiency and, conversely, deactivate it when there is a risk that the post-treatment degrades the decoded signal.
- FIG. 8 gives the percentage of frames with post-filtering enabled for the own speech samples (bottom digit) and the mixed content samples (top digit) as functions of the parameters a ⁇ ⁇ .
- the optimal local point chosen is indicated in dark gray.
- postprocessing is enabled only for 4.8% frames for mixed content but enabled for 92.3% frames for clean speech.
- Values in neighboring points are also acceptable. This implementation thus brings robustness to post-processing.
- the noise attenuation (or reduction) filter (FILT) implementing the E204 aftertreatment incorporates the principles of the filter used in Annex C of the ITU-T G.711.1 standard encoder.
- a filter W ⁇ (f) is computed in the frequency domain by the technique of TSNR ("Two Step Noise Reduction”). ") described for example in the document entitled” Two-step noise reduction technique " ' authors C.PIapous, C.Marro, L.Mauuary & P.Scalart, in ICASSP 2004.
- the signal-to-noise ratio a priori for the frame is calculated in two steps. Firstly, a first RSB estimate priol is calculated by a decision directed between the RSB a priori final of the previous frame and the RSB a posteriori:
- RSB FMSE + (l - fi) max (RSB p ⁇ k i - ⁇ , ⁇ )
- This filter makes it possible to refine the estimation of the RSB a priori by considering this time the PSD of the signal filtered by W l .
- the filter is then calculated from this second version of the RSB by the Wiener form
- the decision d k influences the coefficients W (f), and thus the aggressiveness of the noise attenuation.
- the check is as follows:
- This impulse response is windowed by a 33-coefficient Hanning symmetric window to halve the required size of FIR.
- the time response h (n) is replaced by a single and unit pulse at the 17th coefficient.
- the calculation of the mask can be performed on a pre-filtered version of the signal instead of the simple decoded signal.
- the first filtering of the signal X (f). W (f) can be taken as pre-filtered version.
- This embodiment describes three levels of maximum possible attenuation for filtering. It is obviously possible to provide a different number of attenuation levels and different values for these levels.
- the attenuation level determination module may have only two inputs, the estimate of the quantization noise B (f) and the psycho-acoustic criterion M (f).
- the attenuation levels can be determined simply as follows: the attenuation is inhibited (0) for the frequency bands where B (f) ⁇ M (f) (the noise is masked) and the maximum attenuation is fixed at -6dB for the other frequency bands where B (f)> M (f) (the noise is audible).
- FIG. 9 represents an example of a hardware embodiment of a control device 900 according to the invention. This may be an integral part of a quantization noise reduction (QT) processing device or an audio frequency decoder or equipment receiving decoded audio signals.
- QT quantization noise reduction
- This type of device comprises a PROC processor cooperating with a memory block BM having a memory storage and / or work MEM.
- Such a device comprises an input module E adapted to receive a digital audio signal x (n), an estimate of the quantization noise B (f) determined from the signal decoded, and an output module S adapted to transmit the attenuation level d k determined by the device to a filtering module integrated or not to the device.
- the memory block can advantageously comprise a computer program comprising code instructions for implementing the steps of the control method in the sense of the invention, when these instructions are executed by the processor PROC, and in particular the steps of determining a psychoacoustic criterion from the decoded signal and determination, per signal frame, of an attenuation level to be applied to the noise attenuation processing of the decoded signal, based on the estimate of the quantization noise and of the psycho-acoustic criterion determined.
- FIGS. 2 and 4 shows the steps of an algorithm of such a computer program.
- the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
- the memory MEM records the attenuation states of the frames and their respective attenuation levels used in one embodiment of the control method and in general, all the data necessary for the implementation of the method.
- the device thus described may also include the decoding functions, the processing functions in addition to the attenuation level control functions according to the invention.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
L'invention se rapporte à un procédé de contrôle d'un traitement d'atténuation de bruit de quantification d'un signal audio numérique décodé, le bruit de quantification étant généré par un codage en compression comportant une opération de quantification. Le procédé comporte une étape d'obtention (E201) d'une estimation du bruit de quantification à partir d'un signal disponible au décodeur et est tel qu'il comporte les étapes suivantes: - détermination (E202) d'un critère psycho-acoustique à partir d'un signal disponible au décodeur; - détermination (E203), par trame de signal, d'un niveau d'atténuation à appliquer au traitement d'atténuation (E204) de bruit du signal décodé, en fonction de l'estimation du bruit de quantification et du critère psycho-acoustique déterminé. L'invention se rapporte également à un dispositif de contrôle mettant en œuvre le procédé décrit et un dispositif de traitement comportant un tel dispositif.
Description
Contrôle du traitement d'atténuation d'un bruit de quantification introduit par un codage en compression
La présente invention concerne le contrôle d'un traitement de signal, en particulier de signaux audio numériques dans le domaine des télécommunications. Ces signaux peuvent être des signaux de parole, de musique ou autres.
Généralement, le débit nécessaire pour faire transiter un signal audio avec une qualité suffisante est un paramètre important en télécommunications. Afin de réduire ce paramètre et d'augmenter alors le nombre de communications possibles via un même réseau, des codeurs audio ont été développées notamment pour compresser la quantité d'informations nécessaire pour transmettre un signal.
Certains codeurs permettent d'atteindre des taux de compression de l'information particulièrement élevés. De tels codeurs utilisent en général des techniques avancées de modélisation et de quantification de l'information. Ainsi, de tels codeurs ne transmettent que des modèles ou des données partielles dus signal.
Le signal décodé, bien qu'il ne soit pas identique au signal original (puisqu'une partie de l'information n'a pas été transmise du fait de l'opération de quantification), reste néanmoins très proche du signal original. La différence, du point de vue mathématique, entre le signal décodé et le signal original est alors appelée "bruit de quantification" ou "bruit de codage". On peut parler aussi de "distorsion" introduite par le codage/décodage.
Les traitements en compression de signaux sont souvent conçus de manière à minimiser le bruit de quantification et, en particulier, à rendre ce bruit de quantification le moins audible possible. Il existe alors des techniques prenant en compte les caractéristiques psycho-acoustiques de l'audition, dans le but de "masquer" ce bruit. Toutefois, pour obtenir des débits les plus faibles possibles, le bruit de quantification peut demeurer audible, parfois, ce qui, dans certaines circonstances, dégrade l'intelligibilité du signal et/ou la qualité du signal.
Il existe déjà des systèmes de réduction de bruit de quantification qui comportent un premier module d'estimation du bruit de quantification selon différentes techniques et un deuxième module de traitement de réduction de bruit sur le signal décodé (qui constitue le signal d'entrée du module), à partir de cette estimation. La problématique de ces systèmes est de trouver un compromis entre une réduction trop forte qui peut dégrader le signal utile et une réduction trop faible qui conserve bien le signal utile mais laisse le signal de bruit audible. Cette problématique est d'autant plus vraie lorsque le signal utile est complexe, par exemple lorsqu'il est composé d'un mélange de parole et de bruit ambiant.
Une solution de post-filtrage est par exemple décrite dans le document des auteurs J- L.Garcia, C.Marro et B.Kovesi, intitulé "a PCM coding noise réduction for ITU-T G.711.1", dans Interspeech 2008, pour un codeur de type normalisé ITU-T G.711.
Pour éviter la distorsion du signal utile par le post-traitement ce document propose de limiter l'agressivité du traitement de réduction de bruit par une limitation de l'atténuation maximale, par exemple à -6dB et de garder le signal post-filtré dans l'intervalle de quantification du quantificateur scalaire MIC (Modulation par Impulsion et Codage).
Cependant, cette solution est certes adaptée au codage MIC mais n'est pas toujours applicable ou efficace pour d'autres types de codage en compression, notamment pour un codage de type MICDA (pour "Modulation par Impulsion et Codage Différentiel Adaptatif). De même pour le codage MIC, il peut être intéressant d'améliorer la performance du postfiltrage : La limitation de l'atténuation maximale à -6 dB est un compromis. Une atténuation plus forte donnerait un meilleur résultat pour la parole propre par contre quelques distorsions audible commencerait à apparaître pour les signaux plus complexes. Idéalement le seuil devrait être adaptatif, en fonction du type de signal.
Il existe donc un besoin de contrôler le traitement de réduction de bruit de quantification engendré par un codage différent du codage MIC et pour des signaux audio qui peuvent être complexes.
La présente invention vient améliorer la situation.
Elle propose à cet effet, un procédé de contrôle d'un traitement d'atténuation de bruit de quantification d'un signal audio numérique décodé, le bruit de quantification étant généré par un codage en compression comportant une opération de quantification, le procédé comportant une étape d'obtention d'une estimation du bruit de quantification à partir d'un signal disponible au décodeur. Le procédé est tel qu' il comporte les étapes suivantes:
- détermination d'un critère psycho-acoustique à partir d'un signal disponible au décodeur;
- détermination, par trame de signal, des niveaux d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé, en fonction de l'estimation du bruit de quantification et du critère psycho-acoustique déterminé.
Ainsi, le contrôle de l'atténuation du traitement s'effectue de façon précise de manière à adapter au mieux l'atténuation du bruit au signal décodé. L'utilisation d'un critère psycho-acoustique pour déterminer les niveaux d'atténuation permet d'obtenir une atténuation forte du bruit de codage pour un signal de parole (où le bruit de quantification est particulièrement audible) et une atténuation faible voire nulle pour les enregistrements avec bruit de fond pour lesquels le bruit de quantification n'est pas audible (car masqué par le bruit de fond).
Cette mise en œuvre est adaptée à différents types de codage en compression et n'est donc pas limitée au codage de type MIC ou MICDA.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de contrôle défini ci-dessus.
Dans un mode de réalisation, le critère psycho-acoustique est une courbe de masquage et le procédé comporte en outre une étape de comparaison entre l'estimation du bruit de quantification et la courbe de masquage pour déterminer, par trame de signal décodé, les niveaux d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé.
Ainsi, la comparaison entre l'estimation du bruit de quantification et la courbe de masquage permet de déterminer les endroits du signal où le bruit de quantification peut être masqué et permet ainsi d'adapter au mieux les niveaux d'atténuation à appliquer au traitement d'atténuation du bruit du signal décodé.
De façon simple et précise, dans un mode possible de réalisation, l'étape de comparaison détermine un nombre de coefficients du bruit de quantification estimé, supérieurs à la courbe de masquage, la détermination des niveaux d'atténuation par trame de signal étant fonction du nombre de coefficients déterminés.
De façon particulière, le traitement d'atténuation de bruit est inhibé par un niveau d'atténuation nul lorsque le nombre de coefficients déterminés est inférieur à un seuil prédéterminé.
Ainsi, lorsque le signal audio est un enregistrement de bruit de fond ou un enregistrement musical, celui-ci masque le bruit de quantification qui n'a pas besoin d'être atténué. La comparaison entre le bruit estimé et la courbe de masquage permet de définir les trames qui ont cette caractéristique et d'inhiber dans ce cas, le traitement d'atténuation qui n'est donc pas nécessaire. Ceci diminue donc la complexité globale du traitement et permet d'éviter la dégradation du signal utile par le post-traitement d'atténuation de bruit.
Dans une variante de réalisation présentant les mêmes avantages, l'étape de comparaison détermine un écart de niveau entre le bruit de quantification estimé et la courbe de masquage pour les coefficients du bruit estimé supérieurs à la courbe de masquage, la détermination des niveaux d'atténuation à appliquer au traitement d'atténuation de bruit étant fonction de la valeur de cet écart.
Dans un mode particulier de réalisation, des caractéristiques représentatives des niveaux d'atténuation déterminés pour la trame courante sont mis en mémoire et les niveaux d'atténuation de la trame courante sont déterminés en outre en fonction des caractéristiques des niveaux d'atténuation mémorisés pour un nombre prédéterminé de trames précédentes.
La prise en compte des niveaux d'atténuation des trames précédentes permet des transitions plus douces entre des niveaux d'atténuation différents à appliquer pour des trames successives.
L'invention s'applique parfaitement dans le cas d'un codage de type MICDA mais peut aussi s'appliquer pour d'autres types de codage en compression audio.
La présente invention vise également un dispositif de contrôle d'un traitement de d'atténuation de bruit de quantification d'un signal audio numérique décodé, le bruit de quantification étant généré par un codeur en compression comportant un module de
quantification, le dispositif recevant une estimation du bruit de quantification à partir d'un signal disponible au décodeur par un module d'estimation.
Le dispositif est tel qu'il comporte:
- un module détermination d'un critère psycho-acoustique à partir d'un signal disponible au décodeur;
- un module de détermination par trame de signal, d'un niveau d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé, en fonction de l'estimation du bruit de quantification reçu et du critère psycho-acoustique déterminé.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en œuvre.
L'invention vise également un dispositif de post-traitement d'un signal audio numérique décodé, qui comporte:
- un module d'estimation du bruit de quantification à partir d'un signal disponible au décodeur;
- un dispositif de contrôle d'un traitement d'atténuation du bruit de quantification tel que décrit; et
- un module de filtrage effectuant le traitement d'atténuation du signal décodé avec les niveaux d'atténuation issus du dispositif de contrôle.
Elle vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de contrôle tel que décrit, lorsque ces instructions sont exécutées par un processeur.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif de contrôle, éventuellement amovible, mémorisant un programme informatique mettant en œuvre un procédé de contrôle tel que décrit précédemment.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
la figure 1 illustre de façon schématique la structure générale d'un codée comportant un module de post-traitement d'atténuation de bruit de quantification et un dispositif de contrôle de l'atténuation du traitement d'atténuation selon un mode de réalisation de l'invention;
la figure 2 illustre sous forme d'organigramme, les étapes principales d'un procédé de contrôle d'atténuation selon un mode de réalisation de l'invention; la figure 3 illustre un codée de type MICDA pour lequel le procédé et le dispositif selon l'invention peut être mis en œuvre;
la figure 4 illustre un mode de réalisation particulier du procédé de contrôle selon l'invention, pour un codée de type normalisé ITU-T G.722;
la figure 5 illustre les fenêtres mises en œuvre pour le calcul d'une distribution spectrale de puissance pour la mise œuvre du procédé de contrôle d'atténuation selon un mode de réalisation de l'invention;
la figure 6a illustre une modélisation dans le domaine des Barks d'une fonction élémentaire de masquage utilisée pour définir une courbe de masquage dans un mode de réalisation de l'invention;
La figure 6b illustre une courbe de masquage représentant un critère psychoacoustique dans un mode de réalisation de l'invention;
La figure 7 illustre un exemple de règles de prise en compte des caractéristiques représentatives des niveaux d'atténuation des trames précédentes pour déterminer l'atténuation à appliquer à la trame courante;
La figure 8 représente un tableau indiquant le pourcentage de trames pour lesquelles le traitement d'atténuation de bruit a été mis en œuvre en fonction des paramètres du système de contrôle selon l'invention pour deux catégories de signaux (valeurs du bas pour les échantillons de parole propre et valeurs du haut pour les échantillons de contenus mixte); et
La figure 9 illustre un exemple de réalisation matérielle d'un dispositif de contrôle selon un mode de réalisation de l'invention.
En référence à la figure 1, une chaîne de traitement d'un signal audio est présentée. Un signal s(n) est codé en compression par un codeur COD comportant une opération de quantification Q. Ce signal codé est transmis via un canal de transmission CA puis décodé par un décodeur DEC homologue du codeur COD. Le signal ainsi décodé, noté x(n), présente alors un bruit de quantification b(n) c\u\ se définit mathématiquement comme un écart {s(n) - x(nj). Une unité de traitement d'atténuation TBQ du bruit de quantification est prévu en aval du décodeur DEC, pour supprimer ou au moins limiter le bruit de quantification (pour le rendre moins audible) dans le signal x(n).
Pour effectuer ce traitement d'atténuation du bruit de quantification, que l'on appellera également post-traitement, l'unité de traitement comporte un module BQ d'estimation du bruit de quantification B(f) . Cette estimation peut se faire à partir du signal décodé x(n) (comme c'était le cas pour le codage de type MIC dans l'article déjà cité) et/ou éventuellement à partir d'un signal intermédiaire (I) issu du décodeur où encore à partir du train binaire ( 7) reçus en entrée E.
Chaque coefficient de B(f) donne la puissance du bruit dans la bande de fréquence f correspondante.
Le dispositif de contrôle du traitement DC reçoit en entrée l'estimation du bruit de codage et comporte un module NA de détermination des niveaux d'atténuation par bande de
fréquence à appliquer au traitement d'atténuation du bruit de quantification. Cette détermination s'effectue à partir du bruit estimé B(f), d'un critère psycho-acoustique M(f) déterminé par le module P-A et éventuellement de la distribution spectrale de puissance du signal décodé X(f).
Les niveaux d'atténuation ainsi déterminés permettent de régler les paramètres du filtre FILT qui appliqué au signal décodé x(n), effectue le traitement d'atténuation de bruit. Dans le cas où le dispositif DC détermine un niveau d'atténuation nul pour toutes les bandes de fréquence, cela revient à inhiber le filtrage du module FILT.
Le signal post-traité x'(n) est fourni en sortie S du dispositif de traitement TBQ.
La figure 2 illustre sous forme d'organigramme, les étapes principales d'un procédé de contrôle du traitement d'atténuation de bruit de quantification, selon un mode de réalisation.
Ainsi, à l'étape E201, une estimation du bruit de quantification est effectuée à partir du signal décodé x(n) et/ou éventuellement à partir d'un signal intermédiaire (J) issu du décodeur ou encore à partir du train binaire ( 7) reçu (I et T ne sont pas représentés sur la figure 2). Cette estimation du bruit de quantification est fournie en entrée du dispositif de contrôle DC de la figure 1.
L'estimation du bruit de quantification B(f), peut être effectuée par exemple selon la technique d'estimation décrite dans le document "a PCM coding noise réduction for ITU-T G.711.1" référencé précédemment où la variance du bruit de codage est estimée à partir de la variance du signal décodé de la trame courante, la forme spectrale étant supposée être blanche. Pour les signaux de faible niveau (variance du signal décodé inférieur à un seuil) la variance du bruit de codage est constante (on utilise la partie linéaire du quantificateur MIC). Pour les plus forts niveaux du signal décodé, la variance du bruit de codage est corrélée et approximativement proportionnelle avec celle du signal décodé (on utilise la partie logarithmique du quantificateur MIC, le rapport signal à bruit est à peu près constant).
Pour un codeur de type MICDA on peut faire une estimation relativement précise du bruit de quantification en analogie avec la technique utilisée pour un codeur MIC. Le quantificateur d'un codeur MICDA est également un quantificateur de type logarithmique multiplié par un facteur d'échelle qui encode l'erreur de prédiction. Ainsi la variance de bruit de quantification est corrélée et approximativement proportionnelle avec la variance de l'erreur de prédiction décodée. La division de la variance de l'erreur de prédiction décodée par une constante obtenue par apprentissage, permet donc de faire une estimation relativement précise de la variance de bruit de codage. La forme spectrale du bruit de codage est également supposée blanche.
L'erreur de prédiction décodée est par exemple obtenue à l'issu de calculs intermédiaires effectués au décodeur ou obtenue par décodage partiel du train binaire reçu.
Dans ces cas le module d'estimation du bruit utilise comme entrée soit un signal intermédiaire issu du décodeur (l'erreur de prédiction décodée) soit le train binaire reçu.
D'autres techniques d'estimation du bruit de quantification peuvent bien sûr être utilisées sans que cela ne s'écarte du cadre de l'invention.
En E202, une étape d'obtention d'un critère psycho-acoustique est effectuée. Ce critère psycho-acoustique peut être défini comme étant une limite au-delà de laquelle, le bruit est audible par l'oreille humaine. Un exemple de critère psycho-acoustique est une courbe de masquage.
Le masquage psycho-acoustique est en effet un phénomène perceptif où un son peut potentiellement être non perçu en présence d'un autre, dans ce cas le premier son est masqué. C'est un phénomène spectral mais aussi temporel. De nombreuses modélisations du phénomène existent, on peut citer par exemple la modélisation par filtres à distribution gammatone des auteurs G.Charestan, R.Heusdens et S.van de Par dans le document intitulé "a Gammatone-based psychoacoustical modeling approach for speech and audio coding" dans Proceedings ProRISC/IEEE : Workshop on Circuits, Systems and Signal Processing, Veldhoven, the Netherlands, 2001.
Un autre exemple de calcul d'une courbe de masquage est décrit dans le document des auteurs Y.Mahieux & J-P. Petit intitulé " High-quality audio transform coding at 64kbps", dans IEEE Transactions on Communications, vol.42, no.11, november 1994. D'autres méthodes d'obtention d'une courbe de masquage de calcul peuvent être utilisées. De même d'autres critères psycho-acoustique peuvent être pris en compte.
A la place de courbe de masquage, il est possible d'utiliser un autre critère psychoacoustique, par exemple, la réponse fréquentielle d'un filtre de pondération perceptuel W(z). Les filtres de pondération perceptuels sont connus dans l'état d'art, ils sont obtenus après une analyse LPC ("Linear Prédictive Coding" en anglais) centré sur la trame courante. Les filtres de pondération perceptuels sont utilisés dans pratiquement tous les codeurs de type CELP.
Les exemples de calcul de courbe de masquage cités calculent la courbe de masquage à partir du signal original s(n), qui n'est pas disponible au décodeur. Néanmoins le signal décodé x(n) étant très proche du signal original s(n), une estimation de la courbe de masquage peut donc être faite au décodeur en utilisant ces techniques à partir du signal décodé x(n). C'est le cas illustré sur la figure 2.
Comme pour l'estimation du bruit de quantification, le critère psycho-acoustique utilisé peut également être déterminé à partir d'un signal intermédiaire (I) issu du décodeur ou encore à partir du train binaire (T) reçu (I et T non représentés sur la figure 2). Par exemple on peut obtenir un filtre de pondération perceptuel W(z) à partir du filtre LPC A(z) quantifié et codé dans le train binaire reçu.
A partir de l'estimation du bruit de quantification B(f) et du critère psycho-acoustique M(f) obtenu et éventuellement de la distribution spectrale de puissance du signal décodé X(f), une étape E203 est mise en œuvre pour déterminer les niveaux d'atténuation par bande de fréquence /"du traitement d'atténuation à appliquer au signal décodé x(n).
Cette étape de détermination des niveaux d'atténuation à appliquer tient compte par exemple de la comparaison de l'estimation du bruit de quantification à la courbe de masquage ou encore de la comparaison du spectre du bruit de quantification à la réponse fréquentielle d'un filtre de pondération perceptuel.
En fonction de cette comparaison, lorsque par exemple le bruit de quantification est supérieur à la courbe de masquage, cela signifie qu'il n'est pas totalement masqué et qu'une atténuation de ce bruit de quantification est alors à effectuer. Les niveaux d'atténuation sont alors modulés par exemple en fonction du nombre de coefficients du bruit de quantification supérieur à cette courbe de masquage. On peut par exemple limiter l'atténuation maximale autorisé en fonction du nombre de coefficients du bruit de quantification supérieur à cette courbe de masquage.
A l'inverse, lorsque le bruit de quantification est inférieur à la courbe de masquage (ou le spectre inférieur à la réponse fréquentielle du filtre perceptuel) au moins pour la majorité des coefficients, alors cela signifie que ce bruit de quantification est masqué et qu'un traitement d'atténuation n'est pas nécessaire. Le niveau d'atténuation peut alors être déterminé comme étant nul pour la totalité de la bande de fréquence. Cela correspond alors à une inhibition du traitement d'atténuation.
Un autre facteur que le nombre de coefficients du bruit de quantification supérieur à cette courbe de masquage peut être utilisé pour moduler le filtre d'atténuation en fonction du critère psycho-acoustique. Par exemple pour les coefficients où le bruit de quantification est supérieur à la courbe de masquage, on additionne l'écart B(f)-M(f) en dB de ces coefficients, et on compare la somme obtenue à des seuils prédéterminés. Une faible valeur de cette somme signifie que même si dans certaines bandes de fréquence le bruit est supérieur au masque, ces deux signaux sont très proches. Cela signifie donc que le bruit est très faiblement audible et que l'atténuation doit donc être limitée.
Ainsi, les niveaux d'atténuation déterminés permettent de calculer les paramètres du filtre d'atténuation effectuant le traitement d'atténuation du bruit de quantification à l'étape E204.
Le signal x'(n) résultant est alors un signal post-traité dans lequel le bruit de quantification n'est pas ou peu audible.
Pour stabiliser le contrôle, dans un mode de réalisation particulier, on peut modifier les niveaux d'atténuation ou encore un état d'activation ou de désactivation rk du post-filtre
(post-traitement activé ou désactivé) en fonction des états précédents, en imposant par exemple que le traitement soit activé si un nombre minimum ta de trames consécutives
autorise le post-filtrage et désactivé pour un nombre minimum tna de trames consécutives autorisant l'inverse.
Un mode de réalisation particulier va maintenant être décrit dans le cas d'un codée de type MICDA. On rappelle ci-dessous, en référence à la figure 3, les caractéristiques de la technologie MICDA.
La technologie MICDA ou ADPCM (pour « Adaptative Differential Puise Code Modulation » en anglais) est une technique de compression des signaux multimédias. Les exemples de codeurs utilisant la technologie MICDA les plus connus et les plus utilisés sont deux codeurs de parole, normalisés à l'UIT-T (Union Internationale des Télécommunications): le codeur UIT-T G.726 pour des signaux en bande téléphonique (ou bande étroite) échantillonnés à 8 kHz (codeur DECT pour « Digital Enhanced Cordless Télécommunications» en anglais) et le codeur UIT-T G.722 pour des signaux en bande élargie échantillonnés à 16 kHz (codeur voix HD pour la VoIP).
Le codage MICDA est un codage prédictif où l'échantillon courant est prédit par un prédicteur adaptatif de type ARMA (pour « Auto Régressive Moving Average » en anglais) à partir des valeurs décodées passées. En utilisant les valeurs décodées aussi à l'encodeur donné par un quantificateur inverse local (Qa 1), le décodeur peut faire la même prédiction que l'encodeur. L'adaptation du prédicteur est également faite à partir des valeurs décodées (du signal décodé et de l'erreur de prédiction décodée), échantillon par échantillon, sans transmission d'information supplémentaire.
L'encodeur MICDA (COD) représenté en figure 3, quantifie la différence e(n) (l'erreur de prédiction) entre la prédiction xp (n) , issu du prédicteur adaptatif (Pred.A), de l'échantillon courant et la vraie valeur s(n) de l'échantillon courant en utilisant un quantificateur scalaire adaptatif (Qa). L'amplitude codée de l'erreur de prédiction est composée de 2 parties : une partie constante y(I(n)) stockée en mémoire ROM indexée par les valeurs de quantification scalaire et un facteur adaptatif multiplicatif v(n) (dans le domaine linéaire) appelé facteur d'échelle, dont l'adaptation est faite sans transmission d'information supplémentaire, échantillon par échantillon, en fonction de l'indice de quantification transmis. Dans le flux binaire ("bitstream" en anglais) MICDA, on transmet donc uniquement les indices de quantification scalaire obtenus en quantifiant l'erreur de prédiction échantillon par échantillon.
Ces indices de quantification scalaire se décomposent en un bit de signe sign(n) et un indice de quantification d'amplitude I(n).
Pour décoder le flux binaire, le décodeur (DECOD) effectue une quantification inverse échantillon par échantillon de l'erreur de prédiction utilisant le quantificateur adaptatif inverse (Qa 1). Le décodeur fait également la même prédiction de l'échantillon courant que celle effectuée à l'encodeur, en utilisant le même prédicteur adaptatif ARMA (Pred.A) (en l'absence d'erreurs de transmission) adapté échantillon par échantillon. En cas d'erreurs de
transmission, le prédicteur et le quantificateur au décodeur divergent de ceux à l'encodeur.
Grâce à l'utilisation de facteurs d'oubli ils re-convergent généralement en quelques millisecondes. La valeur décodée de l'échantillon courant est obtenue en additionnant la prédiction et la valeur déquantifiée de l'erreur de prédiction.
Le bruit de quantification d'une telle architecture de codeur MICDA revient finalement à b(n) = s (n) - x(n) = e(n) - eQ (n) lorsqu'on ne prend pas en compte des erreurs de transmission. Les prédictions n'apportent pas d'erreur supplémentaire car elles se font en parallèle à partir du signal décodé.
Le mode de réalisation décrit ci-après est donné pour un contrôle d'un post-filtre de traitement d'atténuation du bruit de quantification de la bande basse d'un codeur de type normalisé UIT-T G.722. Un tel codeur est par exemple décrit dans le document " Rec. ITU-T G.722, 7 kHz audio-coding within 64 kbit/s, Sep. 2012". Dans ce codeur, le signal de la sous- bande basse est en effet codé par un codeur indépendant MICDA.
La figure 4 représente les étapes détaillées du procédé de contrôle dans ce mode de réalisation.
Soit le signal décodé x(n), dont on suppose qu'il est la somme du signal d'origine s(n) et du bruit de codage b(n), on considère à l'étape E401 des trames de longueurs 1=40 échantillons qui sont fenêtré par une fenêtre de Hanning asymétrique Hanning64 de 64 échantillons selon l'équation (1) ci dessous. On fait ainsi un recouvrement des trames sur les 24 premiers échantillon
Ce type de fenêtrage est illustré en référence à la figure 5 où on peut voir le signal (x(n)), les fenêtres de Hanning asymétriques (fen.) et les limites de trame (Mm.). La flèche indiquée sur la figure représente le recouvrement.
Cette fenêtre permet d'assurer une continuité et a l'avantage de ne pas introduire de retard supplémentaire car elle ne nécessite pas la connaissance des échantillons appartenant à la trame suivante. Bien sûr d'autres types de fenêtres peuvent être également utilisées, comme par exemple une fenêtre symétrique Hamming de 72 échantillons centrée sur la trame, en couvrant également 16 échantillons de la trame suivante ("Lookahead" en anglais). L'utilisation d'une telle fenêtre augmentera cependant le retard algorithmique par la durée de 16 échantillons (2 ms avec la fréquence d'échantillonnage de 8000 Hz).
A l'étape E401 de la figure 4, est également effectué un calcul de la distribution spectrale de puissance X(f) de cette trame fenêtrée sur 64 points selon l'équation (2) ci-
dessous. Seuls les 32 premiers coefficients sont gardés, ceci à cause de la symétrie de cette transformée.
(2)
A l'étape E402, le masque M(f) est calculé en utilisant l'implémentation du modèle de Schroeder présenté dans le document cité précédemment des auteurs Y.Mahieux & J-P. Petit.
Dans l'exemple de réalisation, pour chaque coefficient X(f), on calcule la courbe d'étalement associée M; (/ ) dans le domaine des Barks.
L'échelle Bark (d'après Barkhausen) est une division de type logarithmique des fréquences audibles (de 20 Hz à 22 kHz) en 24 bandes critiques beaucoup plus révélatrices de la perception auditive que l'échelle linéaire en Hertz.
La fonction élémentaire de masquage Mt ( f ) encore appelée courbe d'étalement de la membrane basilaire, est estimée dans le domaine des Barks par une simple forme géométrique représentée en figure 6a. Cette modélisation, au lieu d'être triangulaire comme habituellement est ici trapézoïdale. Dans le domaine des Barks, pour une bande critique autour de la fréquence f, on a un plateau à θάΒ sous X(f). En dessous de la bande critique, on a une décroissance de -27dB/Barks et au-dessus de la bande critique, une décroissance de -10dB/Barks. Pour la fréquence centrale f de la courbe d'étalement, on considère un masquage nul.
Dans l'implémentation originale de Mahieux et Petit, la valeur de θάΒ est de -30. On a ainsi les équations (3) suivantes:
La transcription des fréquences en Hz en Barks est faite par la formule (4) suivante
(4)
Ensuite, chaque courbe d'étalement est retransformée dans le domaine fréquentiel. Cette courbe d'étalement de forme simple dans le domaine des Barks est plus complexe dans le domaine des Hz. On en fait une approximation par une fonction linéaire par morceau, chaque morceau correspondant à une bande critique et la bande centrale.
Le masque total M(f) est leur somme. La figure 6b représente en trait pointillé cette courbe de masquage M(f) en comparaison à la distribution spectrale de puissance X(f) représentée en trait plein.
Dans cet exemple de réalisation la courbe de masquage a été déterminée à partir du signal décodé. En fonction du type de codage, le train binaire reçu par le décodeur peut contenir d'autres types de signaux qui permettent de déterminer la courbe de masquage. On peut par exemple déduire la courbe de masquage à partir de l'enveloppe spectrale quantifiée. C'est le cas par exemple dans le codeur TDAC décrit dans Y.Mahieux & J-P. Petit intitulé "High-quality audio transform coding at 64kbps", dans IEEE Transactions on Communications, vol.42, no.11, november 1994 .
Une version quantifiée de la courbe de masquage peut aussi être transmise dans le train binaire. Dans tous les cas on peut obtenir une estimation de la courbe de masquage à partir des signaux disponibles au décodeur.
A l'étape E403 de la figure 4, une comparaison ck est effectuée entre la courbe de masquage M(f) et le bruit de quantification estimé B(f).
On appelle ak le nombre de coefficients B(f) supérieurs à M(f) Qt <x le seuil de comparaison.
La comparaison de ak et oc nous donne l'état ck de la trame.
_ 1 si ak ><x
k 0 sinon
Cet état est par exemple enregistré en mémoire à l'étape E404 pour chaque trame de signal ainsi comparée.
Une décision dk sur le niveau maximal d'atténuation à appliquer au post-traitement est alors prise à l'étape E405. Cette décision peut aussi comprendre un état d'activation (ou de désactivation) du post-filtre, appelé rk .
Dans l'exemple de réalisation la décision dk peut avoir 3 valeurs différentes.
- dk = 0 , le post-filtrage est désactivé
dk = 6 , \e post-filtrage est limité à une atténuation maximale de 6dB
dk = 12 , le post-filtrage est limité à une atténuation maximale de 12dB.
Cette décision dk peut être obtenue en fonction de l'état actuel ck de la trame courante mais peut aussi prendre en compte les p états des trames précédentes cj≡^k_p.k_^ et la décision précédente dk_x par un mécanisme d'hystérésis. Ces caractéristiques sont représentatives des niveaux d'atténuation déterminés pour les trames précédentes.
Dans ce cas, une première décision est prise sur rk , l'état d'activation du postfiltrage. Cette décision intermédiaire permet de nuancer la variation d'atténuation, le passage d'un filtrage désactivé à une limitation à 12dB pouvant être mal perçue.
Le mécanisme d'hystérésis fonctionne comme ceci:
on regarde les c je [k-p;k] et,
Vz e [k - p; k - 1] , ct = ck alors
sinon rk = rk k-1
0 si rk = 0
On en déduit l'atténuation maximale dk = < 6 si rk = 1 et rk_} = 0
12 si rk = 1 et rk_} = 1
Cette hystérésis entraîne un retard de p trames pour changer d'état, mais les trames étant très courtes, on a seulement un retard de 5*p ms. De plus, on garde une continuité, en évitant les problèmes d'activation et de désactivation alternés qui pourraient être intempestifs, ou de changement trop brutaux de niveaux d'atténuation.
Une illustration du diagramme de l'hystérésis décrit ci-dessus est représentée en figure 7 pour p= 10. On y voit les p états précédents <¾· pris en compte ainsi que la décision pour l'étape de décision (dec. rk). La deuxième étape de décision (dec. dk) prend en compte la valeur actuelle de rk et la valeur précédente rk_i pour déterminer la décision dk.
Un autre type d'hystérésis pourrait bien sûr être choisi, moins strict. Par exemple, la décision rk pourrait être choisie en fonction de la majorité de ck précédents.
Le système présenté a été développé pour un système de réduction du bruit de quantification de la bande basse du codeur G.722.
oc, θάΒ et p sont des paramètres du système de contrôle ainsi décrit. Ils ont été déterminés de manière à résoudre la contrainte suivante : activer le post-filtrage lorsqu'on est certain de son efficacité et à l'inverse le désactiver lorsqu'il y a un risque que le posttraitement dégrade le signal décodé.
Par expérimentation, après un premier test d'écoute avec un post-filtre non contrôlé, on a constaté une nette amélioration pour les items de parole propre et à l'inverse quelques dégradations pour les items de contenus mixtes. Par rapport à une base d'apprentissage, on fait une recherche dans l'espace (a,0dB , p) du maximum de décision non nulle pour les contenus de parole propre conjoint au minimum de décision non nulle pour les contenus mixtes. Un optimum local stable est trouvé pour <χ=7, θάΒ = -18 et p= 10.
La figure 8 donne le pourcentage de trames avec post-filtrage activé pour les échantillons de parole propre (chiffre du bas) et les échantillons de contenus mixte (chiffre en haut) en fonctions des paramètres a θάΒ .
Le point local optimal choisi est indiqué en grisé foncé. Pour cette case, le posttraitement est activé seulement pour 4.8% de trames pour le contenu mixte mais activé pour 92.3 % de trames pour la parole propre. Les valeurs dans les points voisins (cases indiquées
en grisé clair) sont également acceptables. Cette implémentation apporte ainsi une robustesse au post-traitement.
Le filtre (FILT) d'atténuation (ou de réduction) de bruit mettant en œuvre le posttraitement E204 reprend les principes du filtre utilisé dans l'annexe C du codeur normalisé ITU-T G.711.1. Pour une trame k, à partir du signal décodé x(n) et l'estimation du bruit pour la même trame, on calcule dans le domaine fréquentiel un filtre W^ (f ) par la technique de la TSNR ("Two Step Noise Réduction") décrit par exemple dans le document intitulé "a Two-step noise réduction technique" 'des auteurs C.PIapous, C.Marro, L.Mauuary & P.Scalart, dans ICASSP 2004.
A partir de la distribution spectrale en puissance (PSD) pour la trame k du signal décodé (f ) et de l'estimation de bruit ' ( ) , on a un rapport signal à bruit (RSB) a posteriori RSB^{ st :
«SB« ( )= -¾
B (f )
Le rapport signal à bruit a priori pour la trame est calculé en deux étapes. Tout d'abord on calcule une première estimation RSBpriol par une décision dirigée entre le RSB a priori final de la trame précédente et le RSB a posteriori :
RSB = fiRSÉ + (l - fi) max(RSBp {ki - Ι,θ)
RSBpriol permet de calculer un premier filtre de réduction de bruit W1 (f ) , d'après la forme de Wiener :
Ce filtre permet d'affiner l'estimation du RSB a priori en considérant cette fois ci, la PSD du signal filtré par Wl . Une deuxième estimation du RSB a priori & alors donné par : x{k) (f).(w!k f))
B (f )
Le filtre est alors calculé à partir de cette deuxième version du RSB par la forme de Wiener
WW ( f) - RRSSBBjjo2A{ f )
l + RSB (f )
La décision dk influe sur les coefficients W(f), et ainsi sur l'agressivité de l'atténuation de bruit. Le contrôle est le suivant :
dk - 0 , le post-filtre est désactivé, on a alors Vf,Wm (f ) = 1
- dk = 6 , le post-filtre est limité à -6dB, ff,Wm (f ) = max(w (f ) , 0.5)
- dk = 12 , le post-filtre est limité à -12dB, Vf,Wm (f ) = max(w (f ) , 0.25)
Par transformée de Fourier inverse et réorganisation des coefficients, un filtre FIR temporel et causal h(n) es calculée :
La réorganisation des coefficients est la suivante :
0:31
32:63
Cette réponse impulsionnelle est fenêtrée par une fenêtre symétrique de Hanning à 33 coefficients de façon à réduire de moitié la taille nécessaire de FIR. Dans le cas où le post- filtre est désactivé, la réponse temporelle h(n) est remplacée par une impulsion unique et unitaire au 17ème coefficient.
Selon une variante de réalisation, le calcul du masque peut s'effectuer sur une version pré-filtrée du signal à la place du signal décodé simple Par exemple, le premier filtrage du signal X(f). W(f) peut être pris comme version pré-filtré.
Ce mode de réalisation décrit trois niveaux d'atténuation maximale possible pour le filtrage. Il est bien évidemment possible de prévoir un nombre différent de niveaux d'atténuation et des valeurs différentes pour ces niveaux.
Dans l'exemple de réalisation donné, pour déterminer les niveaux d'atténuation par bande de fréquence trois signaux d'entrée ont été utilisés : X(f), B(f) et M(f). X(f) et B(f) ont été utilisés pour déterminer le filtre d'atténuation initial W(k)(f), puis ce filtre a été limité en tenant en compte également la comparaison de M(f) Qt de B(f).
Dans d'autres modes de réalisation le module de détermination des niveaux d'atténuation peut n'avoir que deux entrées, l'estimation du bruit de quantification B(f) et le critère psycho-acoustique M(f). Par exemple les niveaux d'atténuation peuvent être déterminés simplement comme suit : l'atténuation est inhibé (0) pour les bandes de fréquences où B(f)≤ M(f) (le bruit est masqué) et l'atténuation maximale est fixée à -6dB pour les autres bandes de fréquence où B(f) > M(f) (le bruit est audible).
La figure 9 représente un exemple de réalisation matérielle d'un dispositif de contrôle 900 selon l'invention. Celui-ci peut faire partie intégrante d'un dispositif de traitement de réduction de bruit de quantification (TBQ) ou encore d'un décodeur audiofréquence ou d'un équipement recevant des signaux audio décodés.
Ce type de dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.
Un tel dispositif comporte un module d'entrée E apte à recevoir un signal audio numérique x(n) , une estimation du bruit de quantification B(f) déterminé à partir du signal
décodé, et un module de sortie S apte à transmettre le niveau d'atténuation dk déterminé par le dispositif à un module de filtrage intégré ou non au dispositif.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de contrôle au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de détermination d'un critère psycho-acoustique à partir du signal décodé et de détermination, par trame de signal, d'un niveau d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé, en fonction de l'estimation du bruit de quantification et du critère psycho-acoustique déterminé.
Typiquement, la description des figures 2 et 4 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.
La mémoire MEM enregistre les états d'atténuation des trames et leurs niveaux respectifs d'atténuation utilisés dans un mode de réalisation du procédé de contrôle et de manière générale, toutes les données nécessaires à la mise en œuvre du procédé.
Dans un mode possible de réalisation, le dispositif ainsi décrit peut également comporter les fonctions de décodage, les fonctions de traitement en plus des fonctions de contrôle du niveau d'atténuation selon l'invention.
Claims
REVENDICATIONS
Procédé de contrôle d'un traitement d'atténuation de bruit de quantification d'un signal audio numérique décodé, le bruit de quantification étant généré par un codage en compression comportant une opération de quantification, le procédé comportant une étape d'obtention (E201) d'une estimation du bruit de quantification à partir d'un signal disponible au décodeur et étant caractérisé en qu'il comporte les étapes suivantes:
détermination (E202) d'un critère psycho-acoustique à partir d'un signal disponible au décodeur;
- détermination (E203), par trame de signal, des niveaux d'atténuation à appliquer au traitement d'atténuation (E204) de bruit du signal décodé, en fonction de l'estimation du bruit de quantification et du critère psycho-acoustique déterminé.
Procédé selon la revendication 1, caractérisé en ce que le critère psychoacoustique est une courbe de masquage et en ce que le procédé comporte en outre une étape de comparaison entre l'estimation du bruit de quantification et la courbe de masquage pour déterminer, par trame de signal décodé, les niveaux d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé.
Procédé selon la revendication 2, caractérisé en ce que l'étape de comparaison détermine un nombre de coefficients du bruit de quantification estimé, supérieurs à la courbe de masquage, la détermination des niveaux d'atténuation par trame de signal étant fonction du nombre de coefficients déterminés.
Procédé selon la revendication 3, caractérisé en ce que le traitement d'atténuation de bruit est inhibé par un niveau d'atténuation nul lorsque le nombre de coefficients déterminés est inférieur à un seuil prédéterminé.
Procédé selon la revendication 2, caractérisé en ce que l'étape de comparaison détermine un écart de niveau entre le bruit de quantification estimé et la courbe de masquage pour les coefficients du bruit estimé supérieurs à la courbe de masquage, la détermination des niveaux d'atténuation à appliquer au traitement d'atténuation de bruit étant fonction de la valeur de cet écart.
6. Procédé selon la revendication 1, caractérisé en ce que des caractéristiques représentatives des niveaux d'atténuation déterminé pour la trame courante sont
mis en mémoire et en ce que les niveaux d'atténuation de la trame courante sont déterminés en outre en fonction des caractéristiques des niveaux d'atténuation mémorisés pour un nombre prédéterminé de trames précédentes. 7. Procédé selon la revendication 1, caractérisé en ce que le bruit de quantification est engendré par un codage de type MICDA.
8. Dispositif de contrôle d'un traitement de d'atténuation de bruit de quantification d'un signal audio numérique décodé, le bruit de quantification étant généré par un codeur en compression comportant un module de quantification, le dispositif recevant une estimation du bruit de quantification à partir d'un signal disponible au décodeur par un module d'estimation (BQ) et étant caractérisé en qu'il comporte:
- un module détermination (P-A) d'un critère psycho-acoustique à partir d'un signal disponible au décodeur;
- un module de détermination (NA) par trame de signal, d'un niveau d'atténuation à appliquer au traitement d'atténuation de bruit du signal décodé, en fonction de l'estimation du bruit de quantification reçu et du critère psycho-acoustique déterminé.
9. Dispositif de post-traitement d'un signal audio numérique décodé, caractérisé en ce qu'il comporte:
- un module d'estimation (BQ) du bruit de quantification à partir d'un signal disponible au décodeur;
- un dispositif de contrôle d'un traitement d'atténuation du bruit de quantification selon la revendication 8; et
- un module de filtrage (FILT) effectuant le traitement d'atténuation du signal décodé avec les niveaux d'atténuation issus du dispositif de contrôle. 10. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de contrôle selon l'une des revendications 1 à 7, lorsque ces instructions sont exécutées par un processeur.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1355590A FR3007184A1 (fr) | 2013-06-14 | 2013-06-14 | Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion |
FR1355590 | 2013-06-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014199055A1 true WO2014199055A1 (fr) | 2014-12-18 |
Family
ID=49151149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/FR2014/051364 WO2014199055A1 (fr) | 2013-06-14 | 2014-06-06 | Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR3007184A1 (fr) |
WO (1) | WO2014199055A1 (fr) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0658875A2 (fr) * | 1993-12-10 | 1995-06-21 | Nec Corporation | Décodeur de parole |
WO2009004225A1 (fr) * | 2007-06-14 | 2009-01-08 | France Telecom | Post-traitement de reduction du bruit de quantification d'un codeur, au decodage |
-
2013
- 2013-06-14 FR FR1355590A patent/FR3007184A1/fr active Pending
-
2014
- 2014-06-06 WO PCT/FR2014/051364 patent/WO2014199055A1/fr active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0658875A2 (fr) * | 1993-12-10 | 1995-06-21 | Nec Corporation | Décodeur de parole |
WO2009004225A1 (fr) * | 2007-06-14 | 2009-01-08 | France Telecom | Post-traitement de reduction du bruit de quantification d'un codeur, au decodage |
Non-Patent Citations (1)
Title |
---|
CHEICK MOHAMED KONATÉ: "Enhancing Speech Coder Quality: Improved Noise Estimation for Postfilters", MASTERS THESIS, 30 June 2011 (2011-06-30), Montreal, Canada, pages 1 - 72, XP007922321 * |
Also Published As
Publication number | Publication date |
---|---|
FR3007184A1 (fr) | 2014-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2586133B1 (fr) | Contrôle d'une boucle de rétroaction de mise en forme de bruit dans un codeur de signal audionumérique | |
EP2366177B1 (fr) | Codage de signal audionumerique avec mise en forme du bruit dans un codeur hierarchique | |
WO2007096552A2 (fr) | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant | |
ES2927808T3 (es) | Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio | |
EP2277172A1 (fr) | Dissimulation d'erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique | |
EP2153438B1 (fr) | Post-traitement de reduction du bruit de quantification d'un codeur, au decodage | |
JP5395250B2 (ja) | 音声コーデックの品質向上装置およびその方法 | |
EP2347411B1 (fr) | Attenuation de pre-echos dans un signal audionumerique | |
EP2652735B1 (fr) | Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique | |
EP3192073B1 (fr) | Discrimination et atténuation de pré-échos dans un signal audionumérique | |
EP2979437B1 (fr) | Mixage optimisé de flux audio codés selon un codage par sous-bandes | |
EP2171713B1 (fr) | Codage de signaux audionumériques | |
WO2014199055A1 (fr) | Controle du traitement d'attenuation d'un bruit de quantification introduit par un codage en compresssion | |
WO2011073600A1 (fr) | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux | |
EP2162883B1 (fr) | Limitation de distorsion introduite par un post-traitement au decodage d'un signal numerique | |
WO2015145050A1 (fr) | Estimation d'un bruit de codage introduit par un codage en compression de type micda | |
Li et al. | Audio codingwith power spectral density preserving quantization | |
WO2009080982A2 (fr) | Traitement d'erreurs binaires dans une trame binaire audionumerique | |
WO2014064379A1 (fr) | Detection d'une bande de frequence predeterminee dans un contenu audio code par sous-bandes selon un codage de type modulation par impulsions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14735608 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14735608 Country of ref document: EP Kind code of ref document: A1 |