WO2002049002A1

WO2002049002A1 - Procede et systeme de traitement vocal d'une suite de phonemes

Info

Publication number: WO2002049002A1
Application number: PCT/FR2001/003944
Authority: WO
Inventors: André LAOT; Guy Vidal; Joël CHALONY
Original assignee: France Telecom
Priority date: 2000-12-14
Filing date: 2001-12-11
Publication date: 2002-06-20
Also published as: AU2002219284A1; FR2818479B1; FR2818479A1

Abstract

Procédé et système de traitement vocal comprenant un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durée des pauses intéressantes.

Description

Procédé et système de traitement vocal d'une suite de phonèmes.

La présente invention concerne le domaine du traitement vocal de sons, notamment de phonèmes, en vue de faciliter la compréhension par un auditeur.

L'invention s'applique dans les réseaux téléphoniques, et dans les réseaux de communications locaux ou à distance.

Le spectre des fréquences utile dans une conversation vocale entre deux personnes, nécessaire pour une bonne perception, s'étend de 250 à 4000 Hz. Les personnes ayant une déficience auditive entraînant une perte d'audition supérieure ou égale à 92 dB sont considérées comme sourdes. Une perte comprise entre 70 et 90 dB entraîne une déficience considérée comme importante. Les pertes d'audition comprises entre 50 et 60 dB sont considérées comme modérées, même si elles peuvent entraîner un inconfort et une gêne lors de conversations directes ou téléphoniques. Les pertes d'audition sont parfois identifiées uniquement par une baisse de niveau général sur l'ensemble du spectre. Dans de nombreux cas, le niveau de perte est plus important sur certaines fréquences ou zones de fréquences.

Les personnes malentendantes souhaitant s'entretenir par téléphone doivent actuellement faire connaître leur handicap et parvenir à faire comprendre à leurs interlocuteurs que ceux-ci doivent s'exprimer lentement et avec une voix forte.

L'invention propose un traitement vocal peu coûteux, de mise en oeuvre simple pour les utilisateurs et facilitant les conversations téléphoniques avec au moins une personne malentendante. L'invention propose de rendre accessible par le réseau téléphonique un service de correction ne déformant pas la fréquence vocale des interlocuteurs.

L'invention s'applique également pour corriger une conversation téléphonique lorsqu'on doit converser avec un interlocuteur pratiquant une langue étrangère que l'on ne maîtrise pas parfaitement.

Le procédé de traitement vocal, selon ' un aspect de l'invention, est réalisé par ralentissement. On détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, et on élargit les durées des pauses intéressantes.

De préférence, les pauses intéressantes sont sélectionnées selon un critère de durée.

Dans un mode de réalisation de l'invention, la durée des pauses intéressantes est supérieure à un seuil. Le seuil peut être compris entre 50 et 200 ms, préférablement entre 80 et 150 ms, mieux encore de l'ordre 100 ms. De préférence, le seuil est ajustable.

Dans un mode de réalisation de l'invention, le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.

Dans un mode de réalisation de l'invention, si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.

Dans un mode de réalisation de l'invention, la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données. Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.

Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.

De préférence, ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.

Ladite demande est effectuée à chaque appel donné ou reçu par ledit interlocuteur. Ladite demande est effectuée à chaque appel donné ou reçu depuis un poste téléphonique déterminé, en conservant une possibilité de désactivation dudit traitement vocal.

Le traitement s'applique, notamment, aux conversations téléphoniques et à des messages enregistrés sur répondeur ou messagerie vocale.

Le système de traitement vocal, selon ^• un aspect de l'invention, comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durées des pauses intéressantes.

Dans un mode de réalisation de l'invention, les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique. Dans un mode de réalisation de l'invention, le système comprend une pluralité de centres à autonomie d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement.

L'invention concerne également un programme d'ordinateur comprenant des moyens de code programme pour mettre en œuvre les étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur. L'invention concerne également un support capable d'être lu par un dispositif de lecture de moyens de code programme qui s'y trouvent stockés et qui sont aptes à la mise en œuvre des étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur.

Grâce à l'invention, on ralentit la vitesse d'élocution d'un premier interlocuteur pour qu'au moins un autre interlocuteur puisse comprendre plus facilement le premier interlocuteur. On améliore de façon importante le confort d'audition. Des personnes malentendantes peuvent ainsi tenir une conversation sur un réseau de télécornmunications ou peuvent utiliser sans difficulté des services vocaux. Le procédé peut être mis en oeuvre par un dispositif du réseau accessible par les personnes malentendantes. Celles-ci peuvent accéder au service mettant en oeuvre le procédé en composant avant ou en cours de communication sur leur combiné téléphonique ou terminal un code par exemple composé de la touche R souvent présente suivi d'un numéro. L'élocution de leur interlocuteur est alors filtrée, pour être débarrassée des bruits parasites, puis analysée afin de pouvoir être ralentie. Le souscripteur du service peut ensuite adapter l'élocution à sa capacité d'écoute en appuyant sur une touche du clavier du combiné pour ralentir plus ou moins fortement l'élocution.

La conversation se trouve ralentie et une insertion de message d'attente permet d'avertir l'interlocuteur ne souffrant pas de déficience auditive et ayant un débit normal d'élocution.

Le débit d'élocution varie très fortement d'un locuteur à un autre. On peut considérer qu'un débit normal est de l'ordre de 9 syllabes/seconde, mais peut aller de 6 à 12 syllabes/seconde. La durée des pauses syntactiques ou de style et des pauses de ponctuation, respiratoires ou associées à des repères de ponctuation, est également variable. Globalement, le nombre de pauses diminue lorsque la vitesse d'élocution augmente. Cependant, cette variation n'est pas régulière mais dépend du type de pauses. Le nombre de pauses liées, par exemple à une interruption nette, est relativement constant quelle que soit la vitesse d'élocution. Une décroissance du nombre de pauses liées à des virgules apparaît allant du rythme lent vers le rythme rapide. Cette décroissance est encore plus prononcée pour les pauses syntactiques non liées à des repères de ponctuation.

A titre d'exemple, une pause liée à une interruption nette, telle que le point marquant la fin d'une phrase, est d'une durée généralement de l'ordre de 100 ms. La durée d'une pause liée à une virgule varie généralement entre 100 et 200 ms, tandis que la durée d'une pause syntactique peut varier entre 30 et 300 ms.

On prévoit donc de fixer un seuil de durée permettant de distinguer entre les types de pauses et de déterminer au moins approximativement les pauses qui présentent la plus grande probabilité d'être reliées à la ponctuation ou à des pauses respiratoires. Les pauses syntactiques indispensables pour la compréhension de la phrase seront ainsi plus rarement affectées par le ralentissement.

De .façon générale, une suite de phonèmes destinée à une personne ayant choisi de ralentir le débit de réception, qu'elle provienne d'un locuteur lors d'une conversation, ou d'un enregistrement effectué au préalable, débute par une phase de filtrage des parasites. On met en oeuvre ensuite une phase d'augmentation du niveau d'émission puis une phase d'élargissement des pauses, en particulier des pauses respiratoires ou de ponctuation. On pourrait également envisager de ralentir les phases d'élocution. Toutefois, on risquerait de modifier de façon importante et gênante la fréquence vocale de la suite de phonèmes. On pourrait alors envisager de corriger la fréquence des phases de suite de phonèmes pour se retrouver au plus près de la fréquence de régime. Cette correction introduit automatiquement de nouvelles pauses syntactiques ou affaiblissements.

Dans le cas d'un réseau téléphonique, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante : - le client A reçoit un appel et souhaite utiliser le service de ralentissement;

- le client A prend la communication et indique à son correspondant qu'il souhaite utiliser le service de ralentissement;

- il appuie sur la touche R du clavier du combiné téléphonique et compose le numéro de téléphone permettant d'activer le ralentissement (en variante, il peut attendre la tonalité après l'appui sur la touche R);

- le correspondant B est alors averti de la mise en oeuvre du ralentissement; - la communication du correspondant B vers le client A est alors traitée de telle façon que le procédé de ralentissement adapte les caractéristiques des suites de phonèmes du correspondant B aux capacités auditives du client A;

- lorsque le client A souhaite élargir les intervalles entre les mots, il peut appuyer sur une touche du clavier, par exemple la touche +, et lorsqu'il souhaite les diminuer, il peut appuyer sur une autre touche, par exemple la touche -.

Dans le cas d'un réseau téléphonique, si le client A est souscripteur du service, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante :

Si l'abonné A n'est pas chez lui, il peut facilement utiliser le service dans le cas où il est l'appelant :

- Le client A compose le numéro du service réseau de ralentissement et se trouve identifié comme souscripteur. - Le serveur vocal du service lui demande de composer le numéro de son correspondant B.

- La cornmunication est établie, la conversation B vers A est traitée et ralentie.

Si l'abonné A n'est pas chez lui et se trouve appelé : - Le client A reçoit d'appel du client B.

- Le client A utilise la fonction double appel et appelle le service de ralentissement en appuyant sur la touche R et en composant un numéro.

- Il est mis en relation avec le service. - Il commande le transfert de l'appel provenant du client B vers le service de ralentissement.

- Il raccroche.

- Le service de ralentissement le rappelle et le met en communication avec le client B. La présente invention sera mieux comprise et d'autres avantages apparaîtront à la lecture de la description détaillée d'un mode de réalisation pris à titre d'exemple nullement limitatif et illustré par les dessins annexés, sur lesquels :

- la figure 1 est une vue schématique d'un réseau téléphonique équipé d'un système de ralentissement;

- la figure 2 est un organigramme des étapes du procédé de ralentissement;

- la figure 3 est un organigramme détaillé de l'étape de ralentissement proprement dite; et - la figure 4 est une variante de la figure 3. Comme on peut le voir sur la figure 1, un interlocuteur 1 est équipé d'un poste téléphonique 2 qui peut être de type privé ou public, par exemple avec un moyen de paiement tel qu'un monnayeur ou un lecteur de carte de crédit. Le poste téléphonique 2 est relié à un centre à autonomie d'acheminement 3, par exemple un autocommutateur.

De façon similaire, l'utilisateur 4 a à sa disposition un poste téléphonique 5 relié à un autre centre à autonomie d'acheminement 6. Un système de ralentissement 7 est apte à établir des communications avec les centres à autonomie d'acheminement 3 et 6. Chaque centre à autonomie d'acheminement 3, 6 est pourvu, à cet effet, d'une interface

8, 9. Bien entendu, les centres à autonomie d'acheminement 3, 6 sont aptes à faire passer des communications par le réseau téléphonique 10 classique, numérique ou analogique. De façon optionnelle, on peut prévoir que les centres à autonomie d'acheminement 3 et 6 sont aptes à établir des communications par l'intermédiaire d'un autre réseau 11, par exemple le réseau Internet, ou encore un réseau Intranet ou autre.

Comme on peut le voir sur la figure 2, le procédé de traitement par ralentissement comprend une étape 12 de filtrage des bruits parasites, suivie d'une étape 13 d'amplification, suivie d'une étape 14 de ralentissement qui sera expliquée plus en détail en référence à la figure 3 et, suivie d'une étape 15 de restitution du signal audio. Les caractéristiques de filtrage et d'amplification peuvent être réglées de façon automatique et/ou par l'utilisateur.

Plus précisément et comme on peut le voir sur la figure 3, l'étape 14 se décompose en une étape 16 dite "d'analyse phonétique datée", qui consiste à séparer le signal audio d'entrée en une liste de phonèmes datés. Un phonème peut être repéré par un numéro d'ordre, une date de début et une date de fin qui peuvent être exprimées à la milliseconde près. Chaque phonème est une unité phonique pertinente pour la communication et capable de produire une différence de communication.

La liste de phonèmes datés est ensuite traitée lors de la sous- étape 17 de séparation en chaînes phonétiques. On effectue une détection visant à identifier les pauses caractérisées par une durée entre deux phonèmes consécutifs supérieure à un seuil T_g. On sépare la liste de phonèmes en chaînes de phonèmes pouvant être assimilées à des mots qui sont ensuite traités lors de l'étape 18 de reconnaissance au cours de laquelle on compare les supposés mots à des mots connus qui peuvent être stockés dans une base de données. Pour des raisons d'économie, on pourra prévoir de ne stocker qu'un nombre limité de mots, par exemple les mots les plus couramment utilisés dans une conversation. L'objectif n'est pas de reconnaître tous les mots, mais un nombre suffisant qui peut être défini par expérimentation pour confirmer ou faire varier l'intervalle T_s entre deux mots.

Si dans une chaîne de phonèmes on reconnaît deux mots, le seuil T_s est trop élevé car cela signifie que la pause entre ces deux mots est de durée inférieure à T_g et n'a pas été prise en considération. On peut alors diminuer T_s d'une durée fixe ou d'un pourcentage. On peut aussi mesurer une durée de mise à jour T_c à partir de phonèmes datés. La durée étant déterminée d'après la durée d'une pause entre deux mots ou d'après une moyenne de durée de pauses inter-mots. On transmet la valeur T_c qui sert à mettre à jour le seuil T_s utilisé dans l'étape 17 de séparation en chaînes phonétiques. Si on ne reconnaît aucun mot, on essaie de travailler sur la somme de la chaîne de phonèmes précédente ajoutée à la chaîne de phonèmes courante pour vérifier si on ne découpe pas trop le signal. Dans ce cas, on peut augmenter la valeur du seuil T. lors d'une mise à jour.

Si le taux de mots reconnus est considéré comme insuffisant après comparaison à un nombre de mots par minute fixé arbitrairement après expérimentation, on peut ramener le seuil T_s progressivement à une valeur par défaut. Si le seuil T_s étant placé à la valeur par défaut, le taux de mots reconnus reste insuffisant, on augmente graduellement le seuil T_g jusqu'à ce qu'on atteigne un nombre de mots reconnus acceptable. Pour améliorer la qualité de service, on pourra prévoir lors de la mise en oeuvre du service par les utilisateurs que le nombre de mots stockés formant une sorte de dictionnaire soit optimisé avec le type de conversation pratiqué par l'utilisateur.

Enfin, lors de l'étape 19, à partir du signal audio d'entrée et du seuil T_g, on détecte les pauses supérieures au seuil T_s et on les allonge en fonction d'une grandeur A, déterminée par l'utilisateur, par exemple au moyen de touches de son combiné téléphonique. A l'issue de l'étape 19, on envoie le signal audio ralenti à l'étape de restitution

15 illustrée sur la figure 2. De façon optionnelle, en vue d'accroître la qualité et le confort d'écoute, on peut prévoir une étape 20 qui, à partir de l'étape

16 d'analyse phonétique datée, mesure le nombre ' de syllabes par seconde. Lorsque le taux de syllabes d'une chaîne de phonèmes devient supérieur à une valeur prédéterminée, par exemple 9 syllabes/seconde, on transmet une grandeur de correction z-^ pour prise en compte lors de l'étape 19 d'adaptation vocale. Lorsque le débit de syllabes est lent ou normal, Δ₂ est nul. Lorsque le taux de syllabes devient élevé, les pauses supérieures à T_g peuvent être allongées lors de l'étape 19, de la somme Δ_j + ^. L'étape 20 de détection de syllabes peut être mise en oeuvre soit à partir de la suite de phonèmes issue de l'étape 16, ou encore à partir de mots reconnus lors de l'étape 18.

Un tel procédé permet d'offrir plusieurs modes de mise en oeuvre, par exemple un mode statique où on prévoit de conserver un seuil T_s fixe ou un mode asservi où le seuil T_s évolue à partir d'une valeur initiale T_j, en fonction de la vitesse d'élocution de l'utilisateur

2 s'adressant à l'utilisateur 1. Toutes les pauses supérieures au seuil T_s sont allongées d'une valeur A-, ou d'une valeur A_l + A^_. ou encore de la seule valeur Δ₂.

On comprend que si le seuil T_s est à une valeur adaptée, une chaîne correspondra généralement à un mot, tandis que s'il prend une valeur trop élevée, une chaîne englobera plusieurs mots, et s'il prend une valeur trop faible, une chaîne ne sera constituée que par une partie d'un mot.

Plus particulièrement, dans le cas d'une communication entre un utilisateur 1 malentendant et un utilisateur 4 d'audition normale, on peut prévoir que la transmission entre l'utilisateur 1 et l'utilisateur 4 se fasse de façon normale, par exemple par le réseau 10. La communication entre l'utilisateur 4 et l'utilisateur 1 s'effectue par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie d'acheminement 3, la communication faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7.

Dans le cas d'une communication entre deux utilisateurs 1 et 4 malentendants, on peut prévoir que la communication dans les deux sens s'effectue par l'intermédiaire du système 7, plus précisément par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie d'acheminement 3, de l'utilisateur 4 vers l'utilisateur 1, et du centre à autonomie d'acheminement 3, de l'interface 8, du système 7, de l'interface 9, du centre à autonomie d'acheminement 6, de l'utilisateur 1 vers l'utilisateur 4, la communication dans les deux sens faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7. En variante, on peut prévoir que le système 7 recevant une communication à ralentir en provenance de l'interface 8 du centre à autonomie d'acheminement 3, effectue le traitement de ralentissement et renvoie la communication ralentie vers l'interface 8, le centre à autonomie d'acheminement 3 établissant une liaison normale vers le centre à autonomie d'acheminement 6. Toutefois, le délai de transmission risque d'être légèrement augmenté.

Claims

REVENDICATIONS

1. Procédé de traitement vocal par ralentissement, dans lequel on détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, on élargit les durées des pauses intéressantes.

2. Procédé selon la revendication 1, dans lequel les pauses intéressantes sont sélectionnées selon un critère de durée.

3. Procédé selon la revendication 2, dans lequel la durée des pauses intéressantes est supérieure à un seuil.

4. Procédé selon la revendication 3, dans lequel le seuil est ajustable.

5. Procédé selon la revendication 4, dans lequel le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.

6. Procédé selon la revendication 5, dans lequel si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.

7. Procédé selon la revendication 5 ou 6, dans lequel la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données.

8. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.

9. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.

10. Procédé selon l'une quelconque des revendications précédentes, dans lequel ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.

11. Système de traitement vocal (7), caractérisé par le fait qu'il comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durées des pauses intéressantes.

12. Système selon la revendication 11, caractérisé par le fait que les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique.

13. Système selon la revendication 11, caractérisé par le fait qu'il comprend une pluralité de centres à autonomie • d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement.