WO2012140347A1 - Evaluation de la qualite vocale d'un signal de parole code - Google Patents

Evaluation de la qualite vocale d'un signal de parole code Download PDF

Info

Publication number
WO2012140347A1
WO2012140347A1 PCT/FR2012/050724 FR2012050724W WO2012140347A1 WO 2012140347 A1 WO2012140347 A1 WO 2012140347A1 FR 2012050724 W FR2012050724 W FR 2012050724W WO 2012140347 A1 WO2012140347 A1 WO 2012140347A1
Authority
WO
WIPO (PCT)
Prior art keywords
indicator
speech signal
signal
evaluation
determining
Prior art date
Application number
PCT/FR2012/050724
Other languages
English (en)
Inventor
Cyril Plapous
Julien Faure
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP12718296.2A priority Critical patent/EP2697794A1/fr
Priority to US14/111,471 priority patent/US9355643B2/en
Publication of WO2012140347A1 publication Critical patent/WO2012140347A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Definitions

  • the present invention relates to a method and device for determining a voice quality indicator of a coded speech signal in a telecommunication system.
  • the invention applies generally to the field of telecommunications and more particularly to the measurement of the transmission quality of a speech signal transmitted during a telephone call through a communication network, for example a mobile network or a switched network or packet network telephony network.
  • a communication network for example a mobile network or a switched network or packet network telephony network.
  • Intrusive methods include transmitting a reference signal at one end of the link near the transmitting terminal and recording the degraded reference signal received at another end of the link near the receiving terminal.
  • the comparison between the reference signal and the degraded reference signal makes it possible to obtain an estimate of the quality of the transmission. Most often, the result of this estimate is the attribution of a so-called MOS score for "Mean Opinion score".
  • the quality measurement signals of these intrusive methods overload the communication network and must therefore be limited in number. In addition, these signals do not correspond to real calls.
  • Non-intrusive methods consist in measuring, at a point in the link, data concerning the coded speech signal transmitted between the transmitting terminal and the receiving terminal and evaluating a quality score based on these data.
  • a non-intrusive method is for example described in Malfait L, Berger J. and Kastner M., P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment, IEEE Transaction on Audio, Speech, and Language Processing, flight. 14 (6), p. 1924-1934, (2006).
  • This method is based on the reconstitution of the audio signal itself before degradation from the transmitted degraded audio signal and psychoacoustic models to obtain a grade of quality from the reconstituted audio signal.
  • This method is however complex and consumes a lot of computing power. Because of its complexity, this method can not be implemented in any type of network or terminal and is therefore very little used.
  • the present invention improves the situation. To this end, it proposes a method for determining an indicator for evaluating the voice quality of a coded speech signal. This process is such that it comprises the following steps:
  • the quality evaluation indicator is obtained from a degraded signal recoded in a simple manner.
  • This method is based on the principle that when recoding an already coded signal, the coding error committed during recoding is lower than during the first coding and depends on the type of coder used. This recoding error will thus make it possible to obtain an indicator revealing the level of degradation obtained on the signal and thus its voice quality.
  • the method further comprises a step of determining an attack in the reconstructed signal, the calculation of the indicator being effected in addition according to the attack thus determined.
  • the attack thus determined makes it possible to overcome the differences between different languages used for the speech signal. This allows the indicator to be weighted by the attack reflecting a particular language and thus normalizing this indicator for different languages.
  • the method is implemented on speech activity signal frames detected by the implementation of a prior voice activity detection step.
  • the present invention can be applied in a first possible application to a method for evaluating the voice quality of a coded speech signal which comprises a step of determining an evaluation indicator according to the method described above and a step of comparing the determined indicator with at least one predetermined threshold to define an evaluation score.
  • a single indicator is useful for evaluating the voice quality of the encoded signal.
  • One or more predetermined thresholds could be previously stored for example by an experimental approach.
  • the evaluation score is determined according to a relationship dependent on the comparison of the indicator with a threshold.
  • the present invention can be applied to a method of identifying a coding class performed on a coded speech signal, which includes a step of determining a method-compliant evaluation flag. described above and a step of comparing the determined indicator with at least one predetermined threshold to define a coding class.
  • Recoding the coded audio signal thus makes it possible to retrieve the characteristics of the coding and therefore a predetermined class of coding.
  • Different types of coding may have been previously identified based on indicator thresholds.
  • the determination of a coding class is performed by a decision tree with several thresholds.
  • the present invention also provides a device for determining an indicator for evaluating the voice quality of a coded speech signal.
  • the device is such that it comprises:
  • a signal frame calculation module of a predetermined number of coefficients of a linear prediction filter of the encoded speech signal;
  • a frame determination module of a reconstructed speech signal from the thus calculated coefficients of the filter;
  • This device has the same advantages as the method described above, which it implements.
  • the present invention also relates to a measurement terminal comprising a device for determining an evaluation indicator as described, means for comparing this indicator to at least one predetermined threshold and means for determining an evaluation score. according to the result of the comparison or comprising a device for determining an evaluation indicator as described, means for comparing this indicator to at least one predetermined threshold and means for identifying a coding class in depending on the result of the comparison to implement the different applications mentioned above.
  • This measurement terminal may be of the evaluation probe type, supervision device, server or even communication terminal.
  • the invention relates to a computer program comprising code instructions for implementing the steps of the method for determining an indicator and / or an evaluation method and / or a method for identifying a encoding class as described above, when these instructions are executed by a processor.
  • the invention relates to a storage medium, readable by a processor, integrated or not integrated into the device or terminal, possibly removable, storing a computer program implementing a method of determination, evaluation or identification such that previously described.
  • FIG. 1 illustrates a communication system and a measurement terminal in which a device for determining an indicator for evaluating the voice quality of a coded speech signal according to one embodiment of the invention is integrated;
  • Fig. 2 illustrates a flowchart showing the steps of a method of determining a voice quality evaluation flag according to an embodiment of the invention
  • FIG. 3 illustrates a flowchart of the steps implemented for an evaluation application according to the invention
  • FIG. 4 illustrates an example of the value of an evaluation score as a function of the indicator obtained according to the invention
  • FIG. 5 illustrates the performance of an evaluation according to the invention as a function of an evaluation made in a subjective way, that is to say by a human
  • FIG. 6 illustrates a flowchart representing the steps implemented for an identification application of a coding class according to the invention
  • FIG. 7 illustrates a decision tree implemented for an identification application of a coding class according to the invention.
  • FIG. 1 represents a communication system in which a transmitting terminal 130a communicates with a receiving terminal 130b through a communication network 131, for example a mobile telephone network or a switched network or packet network telephony network.
  • the voice signal is transmitted through the network in coded form.
  • the type of coding used for this speech signal differs depending on the sending and receiving terminals or on the network.
  • the coding may for example be of the speech coding type standardized in ITU G.729 or G.726, G.711 or of the GSM-FR, IS-54 (2G standard used in North America) type, JD-HR (standard used in Japan), MNRU (for "Modulated Noise Reference Unit "in English of ITU P.810) or other types of speech coding.
  • This coded signal is recovered on the network by a measurement terminal which may be a measurement probe, a supervisory device on the network or another terminal capable of recovering this signal without hindering the current communication.
  • This measurement terminal referenced 100 comprises a processor ( ⁇ ) referenced 125 cooperating with a memory block 126 having a storage and / or working memory MEM.
  • the memory block may advantageously comprise a computer program comprising code instructions for implementing the steps of the method for determining a voice quality evaluation indicator within the meaning of the invention, when these instructions are executed by the user.
  • processor and in particular the steps of calculation by signal frame, of a predetermined number of coefficients of a linear prediction filter of the coded speech signal, of determination by frame, of a reconstructed speech signal starting from the coefficients of the filter thus calculated, obtaining by sample, the residue between the coded speech signal and the reconstructed speech signal and calculation of an evaluation indicator from the average of the absolute value of the residues obtained for all the samples.
  • FIG. 2 repeats the steps of an algorithm of such a computer program.
  • the computer program can also be stored on a memory medium readable by a reader of the device or downloadable in the memory space thereof.
  • Such a measurement terminal is able to recover the coded speech signal x (i) which can be degraded according to the quality of the coding or the transmission quality in the communication network.
  • the measurement terminal comprises a device 110 for determining a voice quality evaluation indicator within the meaning of the invention, comprising software modules able to implement the method according to the invention and as described later with reference in Figure 2.
  • the device 110 thus comprises:
  • the device 110 calculates in a first step the coefficients of a prediction filter, from the coded signal.
  • This prediction filter will be used to recode the coded signal and thus determine a reconstructed speech signal.
  • This reconstructed speech signal is also degraded by the coding and to a lesser extent than the initial coding. From this recoded signal, it is then possible to evaluate the degradation obtained and thus to evaluate the quality of coding.
  • This flag is used both to define a coding quality level and to identify a coding class.
  • the measurement terminal may also include a voice activity detection module DAV referenced 115 for discriminating the active speech areas and the silence zones. The determination of the indicator according to the invention is then performed on the discriminated active speech areas.
  • DAV voice activity detection module
  • the terminal 100 may also include a module 116 for determining an attack in the reconstructed signal. Depending on whether the speech signal is expressed in one language or another, an attack on the signal will have different and language-specific characteristics.
  • This indicator is then compared to one or more thresholds that may have been determined empirically. The comparison is made by a comparator module 120. Depending on the application made of this indicator, the comparison with one or more thresholds will make it possible to determine a rating of the quality MOS of the signal coded by the module 121 or a coding class determined by the module 122. Indeed, different types of coding may have been classified in advance, according to criteria of greater or lesser quality. It is then possible to classify these different types of coding by quality group.
  • FIG. 2 illustrates the main steps implemented by the device 110 of the invention. These steps are now explained in more detail.
  • step E201 voice activity detection may optionally be performed.
  • Voice activity detection discriminates active speech areas and silence zones in the coded signal.
  • the voice activity detection method is by example the method as described in Appendix B of ITU-T Rec.G729 "Coding of speech at 8kbit / s using conjugate-structure algebraic-code-excited linear prediction" (CS-ACELP), 2007.
  • step E202 determines a predetermined number of coefficients of a prediction filter LPC (for "Linear Predictive Coding").
  • LPC Linear Predictive Coding
  • the order of the filter is equal to ten and ten coefficients are thus determined.
  • a reconstructed signal is calculated sample by sample and by signal frame according to the following formula:
  • y (i) -a (2) xx (i - 1) - a (3) xx (i - 2) - ... - a (p + V) xx (i - p) (1) with the signal reconstructed for the sample i in a signal frame of N samples, x (i) the speech signal coded for the sample i, has the coefficients LPC and p the order of the coefficients LPC.
  • the reconstructed signal y (i) is therefore a "recoded" speech signal. This recoding makes it possible to obtain a lower degradation than that obtained during the first coding.
  • the coding makes it possible to approach the real signal to a model. By forcing the signal to approach the model, an error is generated. However, once the signal has been coded once, the distance to the simplified model used here (10-coefficient LPC) is smaller than that with the original signal.
  • This "recoding" degradation makes it possible to evaluate the quality of this recoding and to also determine a classification information of this coding.
  • Step E204 consists of determining the residue between the coded and therefore degraded speech signal and the reconstructed signal, for all the samples, according to the following relation:
  • an attack on the reconstructed signal is determined.
  • the attack corresponds to a change of energy of the speech signal.
  • the time of an attack on a signal is indicative of the language used for the speech signal.
  • One way to determine this attack on the reconstructed signal is to perform a first derivative of the reconstructed signal.
  • the attack is then determined as the average of the absolute value of the first derivative of the reconstructed signal, according to the following equation:
  • the first derivative makes it possible to compensate for the difference in LPC coding error as a function of the different languages used. Indeed, the predictive coding is for example more adapted to the language French only to Japanese language. The indicator "attack" of the signal compensates for these disparities of language.
  • step E206 the indicator for evaluating the voice quality of the coded signal is determined.
  • this indicator corresponds to the average of the absolute value of the residues obtained for all the samples.
  • Ind att (4)
  • the indicator is thus independent of the language used.
  • FIG. 3 illustrates the steps implemented to determine a quality score of the coded signal.
  • a step E300 the indicator thus obtained is compared with a threshold S.
  • this threshold is, for example, set at 0.45.
  • the sound database used for these tests is that defined in the I1TU-T series P, Supplement 23, "Telephone transmission quality, Telephone Installations, local line networks", (1998).
  • This base consists of signals coded according to different speech coders of the G.729, G.726, G.728, G.711, GSM-FR, IS-54, JD-HR, MNRU type, the speakers of these signaling signals. speech use different languages (French, English, American, Japanese).
  • the indicators according to the invention have been calculated for the 44 coding and transcoding conditions of this sound base.
  • the means of the 44 indicators are represented in FIG. 4 according to the corresponding voice quality ratings known for these signals (MOS-LQSN (for "Mean Opinion Score of Listening Quality Subjective Narrowband").
  • step E300 if step E300 reveals that the value of the indicator Ind is below the threshold of 0.45, the voice quality score is then determined according to a first relation MOS1.
  • This first relationship is linear.
  • MOS2 which is a polynomial relation, as shown in FIG.
  • MOS-LQON for "Mean Opinion Score of Listening Quality Objective Narrowband” in English
  • the evaluation thus obtained by the indicator according to the invention has good performance as illustrated with reference to FIG. 5.
  • This figure illustrates the correlation between the objective measurements performed according to the invention (MOS-LQON) and the existing subjective measurements. for the same signals (MOS-LQSN).
  • FIG. 6 illustrates the steps implemented to determine a coding class used for the coded signal.
  • a decision tree illustrated in Figure 7 groups different types of coding and transcoding in six different classes according to the evaluation indicator obtained.
  • a first threshold SI equal to 0.59 makes it possible to differentiate the MNRU type encodings (5, 10 and 15) listed in class 5.
  • the indicator is greater than SI, the coding class identified is class 5.
  • the numbers associated with the MNRU codings represent the various coding levels that are more or less powerful.
  • a second threshold S2 is 0.45. If the indicator is between the threshold S1 and S2, that is to say greater than S2 in step E602 of FIG. 6, then the coding class identified is class 1 grouping the type G codings. 711, G.726, G726 * 4, MNRU30, MNRU20, G.728. These types of coding or transcoding degrade the voice signal.
  • a third threshold S3 has the value 0.39.
  • the encoding or transcoding class identified is class 2 grouping GSMFR, MNRU50 or G.729-G transcoding encodings. .726, G.729-G.728.
  • a fourth threshold S4 has the value 0.32.
  • the coding class or the Transcoding identified is class 3 grouping type G.729, JDC-HR, IS54 or G.726-G729, GSMFR-G.729, GSMFR-IS54, G.728-G.729, GSMFR-G .728-G.729.
  • the coding class identified is class 4 listing the codings which strongly degrade the quality of coding, that is to say in the example cited here, the G.729 * 2, G.729 * 3 type encodings and the G.729 * 2-IS54, JDCHR-G.729, G.729 * 2-GSMFR transcodings.
  • the multiplications associated with the coding types represent the number of transcoding performed (coding / recoding). For example, G.729 * 2 means that there was a G.729 encoding and then a decoding and again a G.729 encoding.
  • All these types of coding are obviously examples of coding.
  • Other types of coding or other coding classes may be provided.
  • the indicator determined according to the invention is then compared with thresholds adapted to these other types of coding or transcoding or to other coding classes.
  • a strong degradation of the signal may for example be due not to the last coding that has occurred but to a coding chain that the indicator will identify.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

La présente invention se rapporte à un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le procédé est remarquable en ce qu'il comporte les étapes suivantes; calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé; détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés; obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit; calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. L'invention se rapporte également à un dispositif de détermination d'un indicateur mettant en œuvre le procédé ci-dessus. Elle se rapporte également à un procédé d'évaluation de la qualité ou d'identification de la classe de codage du signal codé utilisant l'indicateur déterminé, ainsi qu'à un terminal de mesure mettant en œuvre ces procédés.

Description

Evaluation de la qualité vocale d'un signal de parole codé
La présente invention se rapporte à un procédé et dispositif de détermination d'un indicateur de qualité vocale d'un signal de parole codé, dans un système de télécommunication.
L'invention s'applique de manière générale au domaine des télécommunications et plus particulièrement à la mesure de la qualité de transmission d'un signal de parole transmis au cours d'une communication téléphonique au travers d'un réseau de communication, par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.
On connaît actuellement deux grandes catégories de méthodes objectives pour estimer la qualité de transmission d'un signal de parole codé sur une liaison de communication entre un terminal émetteur et un terminal récepteur, les méthodes intrusives et les méthodes non intrusives.
Les méthodes intrusives consistent à émettre un signal de référence à une extrémité de la liaison à proximité du terminal émetteur et à enregistrer le signal de référence dégradé reçu à une autre extrémité de la liaison, à proximité du terminal récepteur. La comparaison entre le signal de référence et le signal de référence dégradé permet d'obtenir une estimation de la qualité de la transmission. Le plus souvent, le résultat de cette estimation se traduit par l'attribution d'une note dite MOS pour « Mean Opinion score ».
Les signaux de mesure de qualité de ces méthodes intrusives surchargent le réseau de communication et doivent donc être limitées en nombre. De plus, ces signaux ne correspondent pas à des appels réels.
Les méthodes non intrusives consistent à mesurer, en un point de la liaison, des données concernant le signal de parole codé transmis entre le terminal émetteur et le terminal récepteur et à évaluer une note de qualité à partir de ces données.
Une méthode non intrusive est par exemple décrite dans le document Malfait L, Berger J. et Kastner M., P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment, IEEE Transaction on Audio, Speech, and Language Processing, vol. 14(6), p. 1924-1934, (2006). Cette méthode est basée sur la reconstitution du signal audio lui-même avant la dégradation à partir du signal audio dégradé transmis et sur des modèles psychoacoustiques permettant d'obtenir une note de qualité à partir du signal audio reconstitué.
Cette méthode est cependant complexe et très consommatrice en puissance de calcul. Du fait de sa complexité, cette méthode ne peut pas être implémentée dans tout type de réseau ou de terminal et est de par ce fait très peu utilisée.
Il existe donc un besoin d'une méthode d'évaluation non intrusive, sans signal de référence qui soit moins complexe et peu consommatrice en puissance de calcul.
La présente invention vient améliorer la situation. Elle propose à cet effet, un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Ce procédé est tel qu'il comporte les étapes suivantes :
calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;
- calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Ainsi, l'indicateur d'évaluation de la qualité est obtenu à partir d'un signal dégradé recodé de façon simple. Ce procédé repose sur le principe que lorsqu'on recode un signal déjà codé, l'erreur de codage commis lors du recodage est plus faible que lors du premier codage et dépend du type de codeur utilisé. Cette erreur de recodage va ainsi permettre d'obtenir un indicateur révélateur du niveau de dégradation obtenu sur le signal et donc de sa qualité vocale.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de détermination d'un indicateur d'évaluation défini ci-dessus.
Dans un mode particulier de réalisation, le procédé comporte en outre une étape de détermination d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.
L'attaque ainsi déterminée permet de s'affranchir des différences entre différentes langues utilisées pour le signal de parole. Ceci permet de pondérer l'indicateur par l'attaque reflétant une langue particulière et ainsi de normaliser cet indicateur pour différentes langues.
Dans un mode avantageux de réalisation, le procédé est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape préalable de détection d'activité vocale.
Ceci permet de ne prendre en compte que le signal utile et réduit donc ainsi les calculs à mettre en œuvre pour réduire encore la complexité.
La présente invention peut être appliquée dans une première application possible à un procédé d'évaluation de la qualité vocale d'un signal de parole codé qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit ci-dessus et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation. Ainsi, un seul indicateur est utile pour évaluer la qualité vocale du signal codé. Un ou plusieurs seuils prédéterminés ont pu être au préalable mémorisés par exemple par une approche expérimentale.
Pour obtenir une mesure plus précise, la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.
Dans un autre mode d'application, la présente invention peut être appliquée à un procédé d'identification d'une classe de codage effectué sur un signal de parole codé, qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit précédemment et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.
Le fait de recoder le signal audio codé permet ainsi de retrouver les caractéristiques du codage et donc une classe prédéterminée de codage. Différents types de codage peuvent avoir été répertoriés au préalable en fonction de seuils d'indicateur.
De façon simple, la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.
La présente invention vise également un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le dispositif est tel qu'il comporte :
un module de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; un module de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et
- un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en œuvre.
La présente invention vise également un terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison ou comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison pour mettre en œuvre les différentes applications susmentionnées.
Ce terminal de mesure peut être de type sonde d'évaluation, dispositif de supervision, serveur ou même terminal de communication. L'invention vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur et/ou d'un procédé d'évaluation et/ou d'un procédé d'identification d'une classe de codage tels que décrits précédemment, lorsque ces instructions sont exécutées par un processeur.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif ou au terminal, éventuellement amovible, mémorisant un programme informatique mettant en œuvre un procédé de détermination, d'évaluation ou d'identification tels que décrit précédemment.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
la figure 1 illustre un système de communication et un terminal de mesure dans lequel s'intègre un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé selon un mode de réalisation de l'invention ;
la figure 2 illustre un organigramme représentant les étapes d'un procédé de détermination d'un indicateur d'évaluation de la qualité vocale selon un mode de réalisation de l'invention ;
la figure 3 illustre un organigramme des étapes mises en œuvre pour une application d'évaluation selon l'invention ;
la figure 4 illustre un exemple de valeur d'une note d'évaluation en fonction de l'indicateur obtenu conformément à l'invention ;
la figure 5 illustre les performances d'une évaluation selon l'invention en fonction d'une évaluation faite de façon subjective, c'est-à-dire par un humain ; - la figure 6 illustre un organigramme représentant les étapes mises en œuvre pour une application d'identification d'une classe de codage selon l'invention ; et la figure 7 illustre un arbre de décision mise en œuvre pour une application d'identification dune classe de codage selon l'invention. La figure 1 représente un système de communication dans lequel un terminal émetteur 130a communique avec un terminal récepteur 130b au travers d'un réseau de communication 131 par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.
Le signal vocal est transmis au travers du réseau sous une forme codée. Le type de codage utilisé pour ce signal de parole diffère selon les terminaux émetteurs et récepteurs ou selon le réseau. Le codage peut par exemple être de type codage de la parole normalisé à l'ITU G.729 ou G.726, G.711 ou encore de type GSM-FR, IS-54 (norme de 2G utilisée en Amérique du Nord), JD-HR (norme utilisée au Japon), MNRU (pour « Modulated Noise Référence Unit » en anglais de la norme ITU P.810) ou bien d'autres types de codage de la parole.
Ce signal codé est récupéré sur le réseau par un terminal de mesure qui peut être une sonde de mesure, un dispositif de supervision sur le réseau ou un autre terminal apte à récupérer ce signal sans gêner la communication en cours.
Ce terminal de mesure référencé 100 comporte un processeur (μΡ) référencé 125 coopérant avec un bloc mémoire 126 comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, lorsque ces instructions sont exécutées par le processeur et notamment les étapes de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé, de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit et de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.
Un tel terminal de mesure est apte à récupérer le signal de parole codé x(i) qui peut être dégradé selon la qualité du codage ou selon la qualité de transmission dans le réseau de communication.
Le terminal de mesure comporte un dispositif 110 de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, comportant des modules logiciels aptes à mettre en œuvre le procédé selon l'invention et tel que décrit ultérieurement en référence à la figure 2.
Le dispositif 110 comporte ainsi :
- un module 111 de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé apte à mettre en œuvre l'étape E202 décrite en référence à la figure 2 ;
un module 112 de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, apte à mettre en œuvre l'étape E203 décrite en référence à la figure 2 ;
un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit, apte à mettre en œuvre l'étape E204 décrite en référence à la figure 2 ; et un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons, apte à mettre en œuvre l'étape E206 décrite en référence à la figure 2.
Ainsi, le dispositif 110 calcule dans un premier temps les coefficients d'un filtre de prédiction, à partir du signal codé. Ce filtre de prédiction va servir à recoder le signal codé et ainsi déterminer un signal de parole reconstruit. Ce signal de parole reconstruit est dégradé également par le codage et de façon moindre que le codage initial. A partir de ce signal recodé, il est alors possible d'évaluer la dégradation obtenue et donc d'évaluer la qualité de codage.
Ainsi, un résidu entre le signal reconstruit et le signal codé est obtenu et un indicateur d'évaluation de la qualité est calculé à partir de ce résidu.
Cet indicateur sert à la fois à définir un niveau de qualité de codage et à identifier une classe de codage.
Le terminal de mesure peut comporter également un module de détection d'activité vocale DAV référencé 115 pour discriminer les zones actives de parole et les zones de silence. La détermination de l'indicateur selon l'invention est alors effectuée sur les zones actives de parole discriminées.
Le terminal 100 peut également comporter un module 116 de détermination d'une attaque dans le signal reconstruit. Selon que le signal de parole est exprimé dans une langue ou dans une autre, une attaque sur le signal aura des caractéristiques différentes et propres à la langue.
La détermination de cette attaque va permettre alors de pondérer l'indicateur pour prendre en compte ces différences de langue.
Cet indicateur est ensuite comparé à un ou plusieurs seuils qui peuvent avoir été déterminés empiriquement. La comparaison est effectuée par un module comparateur 120. Selon l'application qui est faite de cet indicateur, la comparaison à un ou plusieurs seuils va permettre de déterminer une note d'évaluation de la qualité MOS du signal codé par le module 121 ou une classe de codage déterminée par le module 122. En effet, différents types de codage peuvent avoir été classés au préalable, selon des critères de qualité plus ou moins grande. Il est alors possible de classer ces différents types de codage par groupe de qualité.
Ces différents groupes sont identifiés en fonction de la comparaison de l'indicateur d'évaluation de la qualité à un ou plusieurs seuils.
La figure 2 illustre les principales étapes mises en œuvre par le dispositif 110 de l'invention. Ces étapes sont maintenant explicitées plus en détails.
A l'étape E201, une détection d'activité vocale peut de façon optionnelle être effectuée.
La détection d'activité vocale permet de discriminer les zones actives de parole et les zones de silence dans le signal codé. La méthode de détection d'activité vocale est par exemple la méthode telle que décrite dans l'annexe B du document de norme ITU-T Rec.G729 « Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prédiction » (CS-ACELP), 2007.
A partir au moins des zones actives de parole du signal codé, l'étape E202 détermine un nombre prédéterminé de coefficients d'un filtre de prédiction LPC (pour « Linear Prédictive Coding » en anglais). Dans un mode de réalisation possible, l'ordre du filtre est égal à dix et dix coefficients sont ainsi déterminés.
Ces coefficients sont déterminés par exemple, trame par trame, en utilisant l'algorithme de Levinson-Durbin qui minimise l'erreur quadratique entre le signal reconstruit spécifié ci-après et le signal codé x(i).
A partir des coefficients ainsi déterminés, un signal reconstruit est calculé échantillon par échantillon et par trame de signal selon la formule suivante :
y(i) = -a(2) x x(i - 1) - a(3) x x(i - 2) - ... - a(p + V) x x(i - p) (1) avec le signal reconstruit pour l'échantillon i dans une trame de signal de N échantillons, x(i) le signal de parole codé pour l'échantillon i, a les coefficients LPC et p l'ordre des coefficients LPC.
Le signal y(i) reconstruit est donc un signal de parole « recodé ». Ce recodage permet d'obtenir une dégradation plus faible que celle obtenue lors du premier codage.
En effet, le codage permet de faire approcher le signal réel à un modèle. En forçant le signal à se rapprocher du modèle, on génère une erreur. Cependant, une fois que le signal a été codé une première fois, la distance avec le modèle simplifié utilisé ici (LPC à 10 coefficients), est plus faible que celle qu'on peut avoir avec le signal original.
Cette dégradation de « recodage » permet d'évaluer la qualité de ce recodage et de déterminer également une information de classification de ce codage.
L'étape E204 consiste à déterminer le résidu entre le signal de parole codé et donc dégradé et le signal reconstruit, pour tous les échantillons, selon la relation suivante :
res{ï) = x(i) - y(i) (2)
Dans une étape optionnelle E205, une attaque sur le signal reconstruit est déterminée. L'attaque correspond à un changement d'énergie du signal de parole. Le temps d'une attaque sur un signal est révélateur de la langue utilisée pour le signal de parole. Une façon de déterminer cette attaque sur le signal reconstruit est d'effectuer une dérivée première du signal reconstruit. L'attaque est alors déterminée comme la moyenne de la valeur absolue de la dérivée première du signal reconstruit, selon l'équation suivante :
Figure imgf000009_0001
avec N le nombre d'échantillons total du signal reconstruit y(i). La dérivée première permet de compenser la différence d'erreur de codage LPC en fonction des différentes langues utilisées. En effet, le codage prédictif est par exemple plus adapté au langage français qu'au langage japonais. L'indicateur « attaque » du signal compense ces disparités de langage.
Enfin, à l'étape E206, l'indicateur d'évaluation de la qualité vocale du signal codé est déterminé. Dans le cas où l'attaque du signal n'a pas été prise en compte, cet indicateur correspond à la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Dans le cas où l'attaque est prise en compte, celle-ci pondère cet indicateur selon l'équation :
N
N Λ
Ind = att (4) L'indicateur est ainsi indépendant du langage utilisé.
Dans une application possible d'utilisation de cet indicateur, la figure 3 illustre les étapes mises en œuvre pour déterminer une note de qualité du signal codé.
Dans une étape E300, l'indicateur ainsi obtenu est comparé un seuil S. Dans un mode particulier de réalisation, ce seuil est par exemple fixé à 0,45.
Des mesures expérimentales ont en effet été conduites pour déterminer l'effet de cet indicateur sur la note de qualité vocale du signal codé. Pour cela différents signaux codés selon différents types de codage ont été testés.
La base de données sonore utilisée pour ces tests est celle définie dans le document normalisé à I1TU-T série P, Supplément 23, « Téléphone transmission quality, Téléphone Installations, local line networks », (1998). Cette base est constituée de signaux codés selon différents codeurs de parole de type G.729, G.726, G.728, G.711, GSM-FR, IS-54, JD-HR, MNRU, les locuteurs de ces signaux de parole utilisent des langues différentes (français, anglais, américain, japonais).
Les indicateurs selon l'invention ont été calculés pour les 44 conditions de codage et de transcodage de cette base sonore. Les moyennes des 44 indicateurs sont représentées en figure 4 selon les notes de qualité vocale correspondantes connues pour ces signaux (MOS- LQSN (pour « Mean Opinion Score of Listening Quality Subjective Narrowband » en anglais).
On remarque ainsi sur cette figure que les conditions de dégradation avec un codage de type MNRU ne suivent pas la même relation que les dégradations des autres types de codage. Les dégradations dues au codage MNRU sont représentées pour des valeurs de l'indicateur Ind supérieures à 0,45 tandis que les dégradations dues aux autres codeurs sont représentées par des valeurs de l'indicateur Ind inférieures à 0,45.
Ainsi, en revenant à la figure 3, si l'étape E300 révèle que la valeur de l'indicateur Ind est inférieure au seuil de 0,45, la note de qualité vocale est alors déterminée selon une première relation MOS1. Cette première relation est linéaire. Dans le cas contraire, si la valeur de l'indicateur est supérieure ou égale à 0,45, la note de qualité vocale est déterminée selon une seconde relation, MOS2, qui est une relation polynomiale, comme représentée sur la figure 4.
On obtient ainsi les relations suivantes :
MOS1 : MOS - LQON = 7,34. Ind + 0,79 si Ind < 0,45
MOS2 : MOS - LQON = 7,07. Ind2 - 15,89. Ind + 9,82 si Ind≥ 0,45
MOS-LQON (pour « Mean Opinion Score of Listening Quality Objective Narrowband » en anglais) représentant alors la mesure objective obtenue avec l'indicateur d'évaluation Ind selon l'invention.
L'évaluation ainsi obtenue par l'indicateur selon l'invention présente de bonnes performances comme illustré en référence à la figure 5. Cette figure illustre la corrélation entre les mesures objectives effectuées selon l'invention (MOS-LQON) et les mesures subjectives existantes pour les mêmes signaux (MOS-LQSN). La corrélation obtenue, de l'ordre de 89% est très bonne, elle est donnée par le coefficient r de corrélation de Pearson (r=0,89, p<0,001), p étant un coefficient de précision.
Dans une autre application possible d'utilisation de l'indicateur Ind, la figure 6 illustre les étapes mises en œuvre pour déterminer une classe de codage utilisé pour le signal codé.
Un arbre de décision illustré à la figure 7 regroupe différents types de codage et transcodage dans six classes différentes en fonction de l'indicateur d'évaluation obtenu.
Dans cet arbre de décision, quatre seuils sont déterminés. Un premier seuil SI égal à 0,59 permet de différencier les codages de type MNRU (5, 10 et 15) répertoriés dans la classe 5. Ainsi à l'étape E601 de la figure 6, si l'indicateur est supérieur à SI, la classe de codage identifiée est la classe 5.
Les numéros associés aux codages MNRU représentent les différents niveaux de codage plus ou moins puissants.
Un deuxième seuil S2 a pour valeur 0,45. Si l'indicateur est compris entre le seuil SI et S2, c'est-à-dire supérieur à S2 à l'étape E602 de la figure 6, alors la classe de codage identifiée est la classe 1 regroupant les codages de type G.711, G.726, G726*4, MNRU30, MNRU20, G.728. Ces types de codage ou transcodage dégradent peu le signal vocal.
Un troisième seuil S3 a pour valeur 0,39. Quand l'indicateur est compris entre S2 et
53, c'est-à-dire supérieur à S3 à l'étape E603 de la figure 6, la classe de codage ou de transcodage identifiée est la classe 2 regroupant les codages de type GSMFR, MNRU50 ou le transcodage G.729-G.726, G.729-G.728.
Un quatrième seuil S4 a pour valeur 0,32. Quand l'indicateur est compris entre S3 et
54, c'est-à-dire supérieur à S4 à l'étape E604 de la figure 6 la classe de codage ou de transcodage identifiée est la classe 3 regroupant les codages de type G.729, JDC-HR, IS54 ou le transcodage G.726-G729, GSMFR-G.729, GSMFR-IS54, G.728-G.729, GSMFR-G.728-G.729.
Lorsque l'indicateur est inférieur à S4 à l'étape E604 de la figure 6 (branche négative), alors la classe de codage identifiée est la classe 4 répertoriant les codages qui dégradent fortement la qualité de codage, c'est-à-dire dans l'exemple cité ici, les codages de type G.729*2, G.729*3 et les transcodages G.729*2-IS54, JDCHR-G.729, G.729*2-GSMFR.
Les multiplications associées aux types de codage représentent le nombre de transcodage effectué (codage/recodage). Par exemple, G.729*2 signifie qu'il y a eu un codage G.729 puis un décodage et à nouveau un codage G.729.
Tous ces types de codage sont bien évidemment des exemples de codage. D'autres types de codage ou d'autres classes de codages peuvent être prévus. L'indicateur déterminé selon l'invention est alors comparé à des seuils adaptés à ces autres types de codage ou transcodage ou à d'autres classes de codage.
Ainsi, selon l'invention il est possible de distinguer les principaux types de codage mis en œuvre lors du codage du signal de parole et aussi les transcodages qui ont pu avoir été appliqué. Ainsi, une dégradation forte du signal pourra par exemple être dû non pas au dernier codage qui a eu lieu mais à une chaîne de codage que l'indicateur va identifier.
Cette information va ainsi permettre de cibler la provenance de la dégradation du signal codé.

Claims

REVENDICATIONS
Procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte les étapes suivantes : calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;
calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de détermination (E205) d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.
Procédé selon la revendication 1, caractérisé en ce qu'il est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape (E201) préalable de détection d'activité vocale.
Procédé d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation.
Procédé selon la revendication 4, caractérisé en ce que la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.
Procédé d'identification d'une classe de codage effectué sur un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.
Procédé selon la revendication 6, caractérisé en ce que la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.
8. Dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte :
un module (111) de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
- un module (112) de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
un module (113) d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et
un module (114) de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
9. Dispositif caractérisé en ce qu'il met en œuvre les étapes du procédé selon l'une des revendications 2 à 3. 10. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison. 11. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison.
12. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de détermination d'un indicateur d'évaluation selon l'une des revendication 1 à 3 et/ou d'un procédé d'évaluation selon l'une des revendications 4 à 5 et/ou d'un procédé d'identification selon l'une des revendications 5 à 6, lorsque ces instructions sont exécutées par un processeur.
PCT/FR2012/050724 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code WO2012140347A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP12718296.2A EP2697794A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code
US14/111,471 US9355643B2 (en) 2011-04-11 2012-04-04 Evaluation of the voice quality of a coded speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1153129 2011-04-11
FR1153129A FR2973923A1 (fr) 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code

Publications (1)

Publication Number Publication Date
WO2012140347A1 true WO2012140347A1 (fr) 2012-10-18

Family

ID=46025782

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2012/050724 WO2012140347A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code

Country Status (4)

Country Link
US (1) US9355643B2 (fr)
EP (1) EP2697794A1 (fr)
FR (1) FR2973923A1 (fr)
WO (1) WO2012140347A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN109979486B (zh) * 2017-12-28 2021-07-09 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN111326169B (zh) * 2018-12-17 2023-11-10 中国移动通信集团北京有限公司 一种语音质量的评价方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1492085A2 (fr) * 2003-06-25 2004-12-29 Lucent Technologies Inc. Méthode pour représenter la distortion temporelle/linguistique dans l'évaluation objective de la qualité de la parole
WO2010140940A1 (fr) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Procédé et agencement pour estimer la dégradation de qualité d'un signal traité

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US6201960B1 (en) * 1997-06-24 2001-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Speech quality measurement based on radio link parameters and objective measurement of received speech signals
US7434117B1 (en) * 2005-10-28 2008-10-07 Mediatek Inc. Method and apparatus of determining bad frame indication for speech service in a wireless communication system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1492085A2 (fr) * 2003-06-25 2004-12-29 Lucent Technologies Inc. Méthode pour représenter la distortion temporelle/linguistique dans l'évaluation objective de la qualité de la parole
WO2010140940A1 (fr) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Procédé et agencement pour estimer la dégradation de qualité d'un signal traité

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GRANCHAROV V ET AL: "Low-Complexity, Nonintrusive Speech Quality Assessment", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, USA, vol. 14, no. 6, 1 November 2006 (2006-11-01), pages 1948 - 1956, XP003013947, ISSN: 1558-7916, DOI: 10.1109/TASL.2006.883250 *
MALFAIT L ET AL: "P.563-The ITU-T standard for single-ended speech quality assessment", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING NOVEMBER 2006 INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS INC. US, vol. 14, no. 6, 1 November 2006 (2006-11-01), pages 1924 - 1934, XP002663297, DOI: DOI:10.1109/TASL.2006.883177 *
MALFAIT L.; BERGER J.; KASTNER M.: "P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment", IEEE TRANSACTION ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 6, 2006, pages 1924 - 1934, XP002663297, DOI: doi:10.1109/TASL.2006.883177

Also Published As

Publication number Publication date
US20140032212A1 (en) 2014-01-30
US9355643B2 (en) 2016-05-31
FR2973923A1 (fr) 2012-10-12
EP2697794A1 (fr) 2014-02-19

Similar Documents

Publication Publication Date Title
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP1316087B1 (fr) Dissimulation d&#39;erreurs de transmission dans un signal audio
EP1468416B1 (fr) Procede d&#39;evaluation qualitative d&#39;un signal audio numerique.
EP2415047A1 (fr) Procede et dispositif de classification du bruit de fond contenu dans un signal audio
EP1096471A1 (fr) Procédé et dispositif pour l&#39;extraction de paramètres robustes pour la reconnaissance de parole
US8560312B2 (en) Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment
WO2011161362A1 (fr) Controle d&#39;une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
WO2012140347A1 (fr) Evaluation de la qualite vocale d&#39;un signal de parole code
EP1875465A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
EP1039736B1 (fr) Procédé et disposiif d&#39;identification adaptive, et annuleur d&#39;écho adaptive mettant en oeuvre un tel procédé
WO2002043051A1 (fr) Detection non intrusive des defauts d&#39;un signal de parole transmis par paquets
EP2203915A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
EP1241894A1 (fr) Procédé de codage d&#39;images numériques basé sur la dissimulation d&#39;erreurs
EP1909396A2 (fr) Procédé et dispositif de decodage à l&#39;aide de codes correcteurs d&#39;erreurs
WO2024079408A1 (fr) Procédé de détection d&#39;anomalie dans une série temporelle observée de valeurs d&#39;une grandeur physique représentative des performances d&#39;un système
FR2810817A1 (fr) Procede pour la detection d&#39;une frequence ou d&#39;une combinaison de frequences dans un signal et materiels de telecommunications mettant en oeuvre ce procede
FR2980619A1 (fr) Codage/decodage parametrique d&#39;un signal audio multi-canal, en presence de sons transitoires
FR3140958A1 (fr) Procédé de détection d’anomalie dans une série temporelle observée de valeurs d’une grandeur physique représentative des performances d’un système.
FR2992765A1 (fr) Estimation de couplage a faible complexite
WO2010076412A2 (fr) Procede et un dispositif d&#39;estimation de signaux de source issus d&#39;un signal de melange
WO2014199055A1 (fr) Controle du traitement d&#39;attenuation d&#39;un bruit de quantification introduit par un codage en compresssion
FR3018942A1 (fr) Estimation d&#39;un bruit de codage introduit par un codage en compression de type micda
EP2777292A1 (fr) Procede d&#39;evaluation d&#39;au moins un defaut de qualite dans un signal de donnees, dispositif et programme d&#39; ordinateurs associes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12718296

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14111471

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2012718296

Country of ref document: EP