WO2012140347A1

WO2012140347A1 - Evaluation de la qualite vocale d'un signal de parole code

Info

Publication number: WO2012140347A1
Application number: PCT/FR2012/050724
Authority: WO
Inventors: Cyril Plapous; Julien Faure
Original assignee: France Telecom
Priority date: 2011-04-11
Filing date: 2012-04-04
Publication date: 2012-10-18
Also published as: EP2697794A1; US9355643B2; FR2973923A1; US20140032212A1

Abstract

La présente invention se rapporte à un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le procédé est remarquable en ce qu'il comporte les étapes suivantes; calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé; détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés; obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit; calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. L'invention se rapporte également à un dispositif de détermination d'un indicateur mettant en œuvre le procédé ci-dessus. Elle se rapporte également à un procédé d'évaluation de la qualité ou d'identification de la classe de codage du signal codé utilisant l'indicateur déterminé, ainsi qu'à un terminal de mesure mettant en œuvre ces procédés.

Description

Evaluation de la qualité vocale d'un signal de parole codé

La présente invention se rapporte à un procédé et dispositif de détermination d'un indicateur de qualité vocale d'un signal de parole codé, dans un système de télécommunication.

L'invention s'applique de manière générale au domaine des télécommunications et plus particulièrement à la mesure de la qualité de transmission d'un signal de parole transmis au cours d'une communication téléphonique au travers d'un réseau de communication, par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.

On connaît actuellement deux grandes catégories de méthodes objectives pour estimer la qualité de transmission d'un signal de parole codé sur une liaison de communication entre un terminal émetteur et un terminal récepteur, les méthodes intrusives et les méthodes non intrusives.

Les méthodes intrusives consistent à émettre un signal de référence à une extrémité de la liaison à proximité du terminal émetteur et à enregistrer le signal de référence dégradé reçu à une autre extrémité de la liaison, à proximité du terminal récepteur. La comparaison entre le signal de référence et le signal de référence dégradé permet d'obtenir une estimation de la qualité de la transmission. Le plus souvent, le résultat de cette estimation se traduit par l'attribution d'une note dite MOS pour « Mean Opinion score ».

Les signaux de mesure de qualité de ces méthodes intrusives surchargent le réseau de communication et doivent donc être limitées en nombre. De plus, ces signaux ne correspondent pas à des appels réels.

Les méthodes non intrusives consistent à mesurer, en un point de la liaison, des données concernant le signal de parole codé transmis entre le terminal émetteur et le terminal récepteur et à évaluer une note de qualité à partir de ces données.

Une méthode non intrusive est par exemple décrite dans le document Malfait L, Berger J. et Kastner M., P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment, IEEE Transaction on Audio, Speech, and Language Processing, vol. 14(6), p. 1924-1934, (2006). Cette méthode est basée sur la reconstitution du signal audio lui-même avant la dégradation à partir du signal audio dégradé transmis et sur des modèles psychoacoustiques permettant d'obtenir une note de qualité à partir du signal audio reconstitué.

Cette méthode est cependant complexe et très consommatrice en puissance de calcul. Du fait de sa complexité, cette méthode ne peut pas être implémentée dans tout type de réseau ou de terminal et est de par ce fait très peu utilisée.

Il existe donc un besoin d'une méthode d'évaluation non intrusive, sans signal de référence qui soit moins complexe et peu consommatrice en puissance de calcul.

La présente invention vient améliorer la situation. Elle propose à cet effet, un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Ce procédé est tel qu'il comporte les étapes suivantes :

calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;

détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;

obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;

- calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

Ainsi, l'indicateur d'évaluation de la qualité est obtenu à partir d'un signal dégradé recodé de façon simple. Ce procédé repose sur le principe que lorsqu'on recode un signal déjà codé, l'erreur de codage commis lors du recodage est plus faible que lors du premier codage et dépend du type de codeur utilisé. Cette erreur de recodage va ainsi permettre d'obtenir un indicateur révélateur du niveau de dégradation obtenu sur le signal et donc de sa qualité vocale.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de détermination d'un indicateur d'évaluation défini ci-dessus.

Dans un mode particulier de réalisation, le procédé comporte en outre une étape de détermination d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.

L'attaque ainsi déterminée permet de s'affranchir des différences entre différentes langues utilisées pour le signal de parole. Ceci permet de pondérer l'indicateur par l'attaque reflétant une langue particulière et ainsi de normaliser cet indicateur pour différentes langues.

Dans un mode avantageux de réalisation, le procédé est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape préalable de détection d'activité vocale.

Ceci permet de ne prendre en compte que le signal utile et réduit donc ainsi les calculs à mettre en œuvre pour réduire encore la complexité.

La présente invention peut être appliquée dans une première application possible à un procédé d'évaluation de la qualité vocale d'un signal de parole codé qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit ci-dessus et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation. Ainsi, un seul indicateur est utile pour évaluer la qualité vocale du signal codé. Un ou plusieurs seuils prédéterminés ont pu être au préalable mémorisés par exemple par une approche expérimentale.

Pour obtenir une mesure plus précise, la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.

Dans un autre mode d'application, la présente invention peut être appliquée à un procédé d'identification d'une classe de codage effectué sur un signal de parole codé, qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit précédemment et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.

Le fait de recoder le signal audio codé permet ainsi de retrouver les caractéristiques du codage et donc une classe prédéterminée de codage. Différents types de codage peuvent avoir été répertoriés au préalable en fonction de seuils d'indicateur.

De façon simple, la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.

La présente invention vise également un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le dispositif est tel qu'il comporte :

un module de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; un module de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;

un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et

- un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en œuvre.

La présente invention vise également un terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison ou comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison pour mettre en œuvre les différentes applications susmentionnées.

Ce terminal de mesure peut être de type sonde d'évaluation, dispositif de supervision, serveur ou même terminal de communication. L'invention vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur et/ou d'un procédé d'évaluation et/ou d'un procédé d'identification d'une classe de codage tels que décrits précédemment, lorsque ces instructions sont exécutées par un processeur.

Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif ou au terminal, éventuellement amovible, mémorisant un programme informatique mettant en œuvre un procédé de détermination, d'évaluation ou d'identification tels que décrit précédemment.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

la figure 1 illustre un système de communication et un terminal de mesure dans lequel s'intègre un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé selon un mode de réalisation de l'invention ;

la figure 2 illustre un organigramme représentant les étapes d'un procédé de détermination d'un indicateur d'évaluation de la qualité vocale selon un mode de réalisation de l'invention ;

la figure 3 illustre un organigramme des étapes mises en œuvre pour une application d'évaluation selon l'invention ;

la figure 4 illustre un exemple de valeur d'une note d'évaluation en fonction de l'indicateur obtenu conformément à l'invention ;

la figure 5 illustre les performances d'une évaluation selon l'invention en fonction d'une évaluation faite de façon subjective, c'est-à-dire par un humain ; - la figure 6 illustre un organigramme représentant les étapes mises en œuvre pour une application d'identification d'une classe de codage selon l'invention ; et la figure 7 illustre un arbre de décision mise en œuvre pour une application d'identification dune classe de codage selon l'invention. La figure 1 représente un système de communication dans lequel un terminal émetteur 130a communique avec un terminal récepteur 130b au travers d'un réseau de communication 131 par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.

Le signal vocal est transmis au travers du réseau sous une forme codée. Le type de codage utilisé pour ce signal de parole diffère selon les terminaux émetteurs et récepteurs ou selon le réseau. Le codage peut par exemple être de type codage de la parole normalisé à l'ITU G.729 ou G.726, G.711 ou encore de type GSM-FR, IS-54 (norme de 2G utilisée en Amérique du Nord), JD-HR (norme utilisée au Japon), MNRU (pour « Modulated Noise Référence Unit » en anglais de la norme ITU P.810) ou bien d'autres types de codage de la parole.

Ce signal codé est récupéré sur le réseau par un terminal de mesure qui peut être une sonde de mesure, un dispositif de supervision sur le réseau ou un autre terminal apte à récupérer ce signal sans gêner la communication en cours.

Ce terminal de mesure référencé 100 comporte un processeur (μΡ) référencé 125 coopérant avec un bloc mémoire 126 comportant une mémoire de stockage et/ou de travail MEM.

Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, lorsque ces instructions sont exécutées par le processeur et notamment les étapes de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé, de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit et de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.

Un tel terminal de mesure est apte à récupérer le signal de parole codé x(i) qui peut être dégradé selon la qualité du codage ou selon la qualité de transmission dans le réseau de communication.

Le terminal de mesure comporte un dispositif 110 de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, comportant des modules logiciels aptes à mettre en œuvre le procédé selon l'invention et tel que décrit ultérieurement en référence à la figure 2.

Le dispositif 110 comporte ainsi :

- un module 111 de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé apte à mettre en œuvre l'étape E202 décrite en référence à la figure 2 ;

un module 112 de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, apte à mettre en œuvre l'étape E203 décrite en référence à la figure 2 ;

un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit, apte à mettre en œuvre l'étape E204 décrite en référence à la figure 2 ; et un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons, apte à mettre en œuvre l'étape E206 décrite en référence à la figure 2.

Ainsi, le dispositif 110 calcule dans un premier temps les coefficients d'un filtre de prédiction, à partir du signal codé. Ce filtre de prédiction va servir à recoder le signal codé et ainsi déterminer un signal de parole reconstruit. Ce signal de parole reconstruit est dégradé également par le codage et de façon moindre que le codage initial. A partir de ce signal recodé, il est alors possible d'évaluer la dégradation obtenue et donc d'évaluer la qualité de codage.

Ainsi, un résidu entre le signal reconstruit et le signal codé est obtenu et un indicateur d'évaluation de la qualité est calculé à partir de ce résidu.

Cet indicateur sert à la fois à définir un niveau de qualité de codage et à identifier une classe de codage.

Le terminal de mesure peut comporter également un module de détection d'activité vocale DAV référencé 115 pour discriminer les zones actives de parole et les zones de silence. La détermination de l'indicateur selon l'invention est alors effectuée sur les zones actives de parole discriminées.

Le terminal 100 peut également comporter un module 116 de détermination d'une attaque dans le signal reconstruit. Selon que le signal de parole est exprimé dans une langue ou dans une autre, une attaque sur le signal aura des caractéristiques différentes et propres à la langue.

La détermination de cette attaque va permettre alors de pondérer l'indicateur pour prendre en compte ces différences de langue.

Cet indicateur est ensuite comparé à un ou plusieurs seuils qui peuvent avoir été déterminés empiriquement. La comparaison est effectuée par un module comparateur 120. Selon l'application qui est faite de cet indicateur, la comparaison à un ou plusieurs seuils va permettre de déterminer une note d'évaluation de la qualité MOS du signal codé par le module 121 ou une classe de codage déterminée par le module 122. En effet, différents types de codage peuvent avoir été classés au préalable, selon des critères de qualité plus ou moins grande. Il est alors possible de classer ces différents types de codage par groupe de qualité.

Ces différents groupes sont identifiés en fonction de la comparaison de l'indicateur d'évaluation de la qualité à un ou plusieurs seuils.

La figure 2 illustre les principales étapes mises en œuvre par le dispositif 110 de l'invention. Ces étapes sont maintenant explicitées plus en détails.

A l'étape E201, une détection d'activité vocale peut de façon optionnelle être effectuée.

La détection d'activité vocale permet de discriminer les zones actives de parole et les zones de silence dans le signal codé. La méthode de détection d'activité vocale est par exemple la méthode telle que décrite dans l'annexe B du document de norme ITU-T Rec.G729 « Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prédiction » (CS-ACELP), 2007.

A partir au moins des zones actives de parole du signal codé, l'étape E202 détermine un nombre prédéterminé de coefficients d'un filtre de prédiction LPC (pour « Linear Prédictive Coding » en anglais). Dans un mode de réalisation possible, l'ordre du filtre est égal à dix et dix coefficients sont ainsi déterminés.

Ces coefficients sont déterminés par exemple, trame par trame, en utilisant l'algorithme de Levinson-Durbin qui minimise l'erreur quadratique entre le signal reconstruit spécifié ci-après et le signal codé x(i).

A partir des coefficients ainsi déterminés, un signal reconstruit est calculé échantillon par échantillon et par trame de signal selon la formule suivante :

y(i) = -a(2) x x(i - 1) - a(3) x x(i - 2) - ... - a(p + V) x x(i - p) (1) avec le signal reconstruit pour l'échantillon i dans une trame de signal de N échantillons, x(i) le signal de parole codé pour l'échantillon i, a les coefficients LPC et p l'ordre des coefficients LPC.

Le signal y(i) reconstruit est donc un signal de parole « recodé ». Ce recodage permet d'obtenir une dégradation plus faible que celle obtenue lors du premier codage.

En effet, le codage permet de faire approcher le signal réel à un modèle. En forçant le signal à se rapprocher du modèle, on génère une erreur. Cependant, une fois que le signal a été codé une première fois, la distance avec le modèle simplifié utilisé ici (LPC à 10 coefficients), est plus faible que celle qu'on peut avoir avec le signal original.

Cette dégradation de « recodage » permet d'évaluer la qualité de ce recodage et de déterminer également une information de classification de ce codage.

L'étape E204 consiste à déterminer le résidu entre le signal de parole codé et donc dégradé et le signal reconstruit, pour tous les échantillons, selon la relation suivante :

res{ï) = x(i) - y(i) (2)

Dans une étape optionnelle E205, une attaque sur le signal reconstruit est déterminée. L'attaque correspond à un changement d'énergie du signal de parole. Le temps d'une attaque sur un signal est révélateur de la langue utilisée pour le signal de parole. Une façon de déterminer cette attaque sur le signal reconstruit est d'effectuer une dérivée première du signal reconstruit. L'attaque est alors déterminée comme la moyenne de la valeur absolue de la dérivée première du signal reconstruit, selon l'équation suivante :

avec N le nombre d'échantillons total du signal reconstruit y(i). La dérivée première permet de compenser la différence d'erreur de codage LPC en fonction des différentes langues utilisées. En effet, le codage prédictif est par exemple plus adapté au langage français qu'au langage japonais. L'indicateur « attaque » du signal compense ces disparités de langage.

Enfin, à l'étape E206, l'indicateur d'évaluation de la qualité vocale du signal codé est déterminé. Dans le cas où l'attaque du signal n'a pas été prise en compte, cet indicateur correspond à la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

Dans le cas où l'attaque est prise en compte, celle-ci pondère cet indicateur selon l'équation :

N

N _Λ

Ind = att (4) L'indicateur est ainsi indépendant du langage utilisé.

Dans une application possible d'utilisation de cet indicateur, la figure 3 illustre les étapes mises en œuvre pour déterminer une note de qualité du signal codé.

Dans une étape E300, l'indicateur ainsi obtenu est comparé un seuil S. Dans un mode particulier de réalisation, ce seuil est par exemple fixé à 0,45.

Des mesures expérimentales ont en effet été conduites pour déterminer l'effet de cet indicateur sur la note de qualité vocale du signal codé. Pour cela différents signaux codés selon différents types de codage ont été testés.

La base de données sonore utilisée pour ces tests est celle définie dans le document normalisé à I1TU-T série P, Supplément 23, « Téléphone transmission quality, Téléphone Installations, local line networks », (1998). Cette base est constituée de signaux codés selon différents codeurs de parole de type G.729, G.726, G.728, G.711, GSM-FR, IS-54, JD-HR, MNRU, les locuteurs de ces signaux de parole utilisent des langues différentes (français, anglais, américain, japonais).

Les indicateurs selon l'invention ont été calculés pour les 44 conditions de codage et de transcodage de cette base sonore. Les moyennes des 44 indicateurs sont représentées en figure 4 selon les notes de qualité vocale correspondantes connues pour ces signaux (MOS- LQSN (pour « Mean Opinion Score of Listening Quality Subjective Narrowband » en anglais).

On remarque ainsi sur cette figure que les conditions de dégradation avec un codage de type MNRU ne suivent pas la même relation que les dégradations des autres types de codage. Les dégradations dues au codage MNRU sont représentées pour des valeurs de l'indicateur Ind supérieures à 0,45 tandis que les dégradations dues aux autres codeurs sont représentées par des valeurs de l'indicateur Ind inférieures à 0,45.

Ainsi, en revenant à la figure 3, si l'étape E300 révèle que la valeur de l'indicateur Ind est inférieure au seuil de 0,45, la note de qualité vocale est alors déterminée selon une première relation MOS1. Cette première relation est linéaire. Dans le cas contraire, si la valeur de l'indicateur est supérieure ou égale à 0,45, la note de qualité vocale est déterminée selon une seconde relation, MOS2, qui est une relation polynomiale, comme représentée sur la figure 4.

On obtient ainsi les relations suivantes :

MOS1 : MOS - LQON = 7,34. Ind + 0,79 si Ind < 0,45

MOS2 : MOS - LQON = 7,07. Ind² - 15,89. Ind + 9,82 si Ind≥ 0,45

MOS-LQON (pour « Mean Opinion Score of Listening Quality Objective Narrowband » en anglais) représentant alors la mesure objective obtenue avec l'indicateur d'évaluation Ind selon l'invention.

L'évaluation ainsi obtenue par l'indicateur selon l'invention présente de bonnes performances comme illustré en référence à la figure 5. Cette figure illustre la corrélation entre les mesures objectives effectuées selon l'invention (MOS-LQON) et les mesures subjectives existantes pour les mêmes signaux (MOS-LQSN). La corrélation obtenue, de l'ordre de 89% est très bonne, elle est donnée par le coefficient r de corrélation de Pearson (r=0,89, p<0,001), p étant un coefficient de précision.

Dans une autre application possible d'utilisation de l'indicateur Ind, la figure 6 illustre les étapes mises en œuvre pour déterminer une classe de codage utilisé pour le signal codé.

Un arbre de décision illustré à la figure 7 regroupe différents types de codage et transcodage dans six classes différentes en fonction de l'indicateur d'évaluation obtenu.

Dans cet arbre de décision, quatre seuils sont déterminés. Un premier seuil SI égal à 0,59 permet de différencier les codages de type MNRU (5, 10 et 15) répertoriés dans la classe 5. Ainsi à l'étape E601 de la figure 6, si l'indicateur est supérieur à SI, la classe de codage identifiée est la classe 5.

Les numéros associés aux codages MNRU représentent les différents niveaux de codage plus ou moins puissants.

Un deuxième seuil S2 a pour valeur 0,45. Si l'indicateur est compris entre le seuil SI et S2, c'est-à-dire supérieur à S2 à l'étape E602 de la figure 6, alors la classe de codage identifiée est la classe 1 regroupant les codages de type G.711, G.726, G726*4, MNRU30, MNRU20, G.728. Ces types de codage ou transcodage dégradent peu le signal vocal.

Un troisième seuil S3 a pour valeur 0,39. Quand l'indicateur est compris entre S2 et

53, c'est-à-dire supérieur à S3 à l'étape E603 de la figure 6, la classe de codage ou de transcodage identifiée est la classe 2 regroupant les codages de type GSMFR, MNRU50 ou le transcodage G.729-G.726, G.729-G.728.

Un quatrième seuil S4 a pour valeur 0,32. Quand l'indicateur est compris entre S3 et

54, c'est-à-dire supérieur à S4 à l'étape E604 de la figure 6 la classe de codage ou de transcodage identifiée est la classe 3 regroupant les codages de type G.729, JDC-HR, IS54 ou le transcodage G.726-G729, GSMFR-G.729, GSMFR-IS54, G.728-G.729, GSMFR-G.728-G.729.

Lorsque l'indicateur est inférieur à S4 à l'étape E604 de la figure 6 (branche négative), alors la classe de codage identifiée est la classe 4 répertoriant les codages qui dégradent fortement la qualité de codage, c'est-à-dire dans l'exemple cité ici, les codages de type G.729*2, G.729*3 et les transcodages G.729*2-IS54, JDCHR-G.729, G.729*2-GSMFR.

Les multiplications associées aux types de codage représentent le nombre de transcodage effectué (codage/recodage). Par exemple, G.729*2 signifie qu'il y a eu un codage G.729 puis un décodage et à nouveau un codage G.729.

Tous ces types de codage sont bien évidemment des exemples de codage. D'autres types de codage ou d'autres classes de codages peuvent être prévus. L'indicateur déterminé selon l'invention est alors comparé à des seuils adaptés à ces autres types de codage ou transcodage ou à d'autres classes de codage.

Ainsi, selon l'invention il est possible de distinguer les principaux types de codage mis en œuvre lors du codage du signal de parole et aussi les transcodages qui ont pu avoir été appliqué. Ainsi, une dégradation forte du signal pourra par exemple être dû non pas au dernier codage qui a eu lieu mais à une chaîne de codage que l'indicateur va identifier.

Cette information va ainsi permettre de cibler la provenance de la dégradation du signal codé.

Claims

REVENDICATIONS

Procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte les étapes suivantes : calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;

détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;

obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;

calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de détermination (E205) d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.

Procédé selon la revendication 1, caractérisé en ce qu'il est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape (E201) préalable de détection d'activité vocale.

Procédé d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation.

Procédé selon la revendication 4, caractérisé en ce que la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.

Procédé d'identification d'une classe de codage effectué sur un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.

Procédé selon la revendication 6, caractérisé en ce que la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.

8. Dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte :

un module (111) de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;

- un module (112) de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;

un module (113) d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et

un module (114) de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.

9. Dispositif caractérisé en ce qu'il met en œuvre les étapes du procédé selon l'une des revendications 2 à 3. 10. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison. 11. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison.

12. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de détermination d'un indicateur d'évaluation selon l'une des revendication 1 à 3 et/ou d'un procédé d'évaluation selon l'une des revendications 4 à 5 et/ou d'un procédé d'identification selon l'une des revendications 5 à 6, lorsque ces instructions sont exécutées par un processeur.