WO2002049002A1 - Procede et systeme de traitement vocal d'une suite de phonemes - Google Patents

Procede et systeme de traitement vocal d'une suite de phonemes Download PDF

Info

Publication number
WO2002049002A1
WO2002049002A1 PCT/FR2001/003944 FR0103944W WO0249002A1 WO 2002049002 A1 WO2002049002 A1 WO 2002049002A1 FR 0103944 W FR0103944 W FR 0103944W WO 0249002 A1 WO0249002 A1 WO 0249002A1
Authority
WO
WIPO (PCT)
Prior art keywords
interesting
phonemes
breaks
pauses
threshold
Prior art date
Application number
PCT/FR2001/003944
Other languages
English (en)
Inventor
André LAOT
Guy Vidal
Joël CHALONY
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to AU2002219284A priority Critical patent/AU2002219284A1/en
Publication of WO2002049002A1 publication Critical patent/WO2002049002A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Definitions

  • the present invention relates to the field of vocal processing of sounds, in particular of phonemes, in order to facilitate comprehension by a listener.
  • the invention applies in telephone networks, and in local or remote communications networks.
  • the invention provides inexpensive voice processing, which is simple to implement for users and which facilitates telephone conversations with at least one hearing impaired person.
  • the invention proposes to make accessible by the network telephone correction service that does not distort the voice frequency of the callers.
  • the invention also applies to correct a telephone conversation when it is necessary to converse with an interlocutor practicing a foreign language which one does not master perfectly.
  • the voice processing method is carried out by slowing down.
  • the interesting breaks are selected according to a duration criterion.
  • the duration of the interesting breaks is greater than a threshold.
  • the threshold can be between 50 and 200 ms, preferably between 80 and 150 ms, better still on the order of 100 ms.
  • the threshold is adjustable.
  • the threshold is adjusted as a function of the number of words recognized in a series of phonemes.
  • word recognition is carried out by comparing a consecutive set of phonemes between two interesting pauses with a list of words stored in a database.
  • the durations of the interesting breaks are extended by a value determined by a user, or by a constant value.
  • the durations of the interesting pauses are widened by a value depending on the bit rate of the sequence of phonemes.
  • said voice processing is applied, in a telephone conversation, at the request of one of the interlocutors to any series of phonemes to be received by said interlocutor.
  • Said request is made with each call given or received by said interlocutor. Said request is made on each call given or received from a determined telephone set, while retaining the possibility of deactivating said voice processing.
  • the processing applies, in particular, to telephone conversations and messages recorded on answering machine or voicemail.
  • the voice processing system comprises a pause detection means in a sequence of phonemes, a means of selecting interesting breaks, and a means of expanding durations interesting breaks.
  • the means for detecting breaks, selecting interesting breaks and widening are part of a device connected to a telephone network.
  • the system comprises a plurality of self-routing centers each connected to a plurality of telephone sets, each self-routing center being able to divert a series of phonemes to the detection means breaks, selection of interesting breaks and enlargement.
  • the invention also relates to a computer program comprising program code means for implementing the steps of the method, when said program is running on a computer.
  • the invention also relates to a medium capable of being read by a device for reading program code means which are stored therein and which are suitable for implementing the steps of the method, when said program is running on a computer.
  • the speed of speech of a first interlocutor is slowed down so that at least one other interlocutor can more easily understand the first interlocutor. It significantly improves hearing comfort.
  • Hearing impaired people can have a conversation over a telecommunication network or can easily use voice services.
  • the method can be implemented by a network device accessible by the hearing impaired. They can access the service implementing the process by dialing before or during communication on their telephone handset or terminal a code, for example composed of the R key often present followed by a number.
  • the speech of their interlocutor is then filtered, to be rid of parasitic noises, then analyzed in order to be able to be slowed down.
  • the subscriber of the service can then adapt the speech to his listening ability by pressing a key on the handset keyboard to more or less significantly slow down the speech.
  • the conversation is slowed down and an insertion of a waiting message makes it possible to warn the interlocutor not suffering from hearing impairment and having a normal speech rate.
  • the rate of speech varies greatly from one speaker to another.
  • a normal flow is of the order of 9 syllables / second, but can go from 6 to 12 syllables / second.
  • the duration of syntactic or style breaks and punctuation breaks, breathing breaks or those associated with punctuation marks, is also variable.
  • the number of pauses decreases as the speaking speed increases. However, this variation is not regular but depends on the type of breaks.
  • the number of pauses linked for example to a clear interruption, is relatively constant regardless of the speed of speech. A decrease in the number of pauses linked to commas appears going from the slow rhythm to the fast rhythm. This decrease is even more pronounced for syntactic pauses not linked to punctuation marks.
  • a pause linked to a clear interruption is generally of the order of 100 ms.
  • the duration of a comma-related pause generally varies between 100 and 200 ms, while the duration of a syntactic pause can vary between 30 and 300 ms.
  • a series of phonemes intended for a person who has chosen to slow down the reception speed begins with a phase of parasite filtering.
  • a phase of increasing the emission level is then implemented, followed by a phase of widening the breaks, in particular breathing or punctuation breaks.
  • the method can be implemented by a system linked to the network and operating as follows: - client A receives a call and wishes to use the slowdown service;
  • client A when client A wishes to widen the intervals between words, he can press a key on the keyboard, for example the key +, and when he wishes to decrease them, he can press another key, for example the - key.
  • the method can be implemented by a system linked to the network and operating as follows:
  • Client A dials the slowdown network service number and is identified as a subscriber.
  • the service's vocal server asks him to dial the number of his correspondent B.
  • Client A receives a call from client B.
  • - Client A uses the inquiry call function and calls the slowdown service by pressing the R key and dialing a number.
  • - He is put in contact with the service.
  • - He orders the transfer of the call from client B to the slowdown service.
  • FIG. 1 is a schematic view of a telephone network equipped with a deceleration system
  • FIG. 2 is a flow diagram of the steps of the deceleration process
  • FIG. 1 is a detailed flowchart of the actual deceleration step; and - Figure 4 is a variant of Figure 3.
  • an interlocutor 1 is equipped with a telephone set 2 which can be of private or public type, for example with a means of payment such as a coin mechanism or a credit card reader.
  • the telephone set 2 is connected to a self-routing center 3, for example a PABX.
  • a deceleration system 7 is able to establish communications with the centers with independent routing 3 and 6
  • Each center with autonomy of routing 3, 6 is provided, for this purpose, with an interface
  • the self-routing centers 3, 6 are capable of passing communications through the conventional telephone network 10, digital or analog.
  • the slowdown treatment method comprises a step 12 of filtering out noise, followed by an amplification step 13, followed by a slowdown step 14 which will be explained in more detail with reference to FIG. 3 and, followed by a step 15 of restitution of the audio signal.
  • the filtering and amplification characteristics can be adjusted automatically and / or by the user.
  • step 14 is broken down into a step 16 called "dated phonetic analysis", which consists in separating the input audio signal into a list of dated phonemes.
  • a phoneme can be identified by a serial number, a start date and an end date which can be expressed to the nearest millisecond.
  • Each phoneme is a sound unit relevant to communication and capable of producing a difference in communication.
  • the list of dated phonemes is then treated during sub-step 17 of separation into phonetic chains.
  • a detection is carried out aimed at identifying the pauses characterized by a duration between two consecutive phonemes greater than a threshold T g .
  • T g a threshold
  • the threshold T s is too high because it means that the pause between these two words is of duration less than T g and has not been taken into account.
  • the value T c which is used to update the threshold T s used in step 17 of separation into phonetic chains is transmitted. If no word is recognized, we try to work on the sum of the previous phoneme chain added to the current phoneme chain to check if we are not cutting the signal too much. In this case, the value of the threshold T. can be increased during an update.
  • the threshold T s can gradually be reduced to a default value. If the threshold T s is set to the default value, the rate of recognized words remains insufficient, the threshold T g is gradually increased until an acceptable number of recognized words is reached. To improve the quality of service, provision may be made during the implementation of the service by the users that the number of stored words forming a sort of dictionary is optimized with the type of conversation practiced by the user.
  • step 19 on the basis of the input audio signal and the threshold T g , the pauses above the threshold T s are detected and they are extension as a function of a quantity A, determined by the user, for example by means of keys on his telephone handset.
  • the slowed down audio signal is sent to the restitution step
  • step 20 which, starting from the step
  • Step 16 dated phonetic analysis measures the number of syllables per second.
  • a correction quantity z- ⁇ is transmitted for taking into account during step 19 for voice adaptation.
  • ⁇ 2 is zero.
  • Step 20 of syllable detection can be implemented either from the sequence of phonemes from step 16, or from words recognized during step 18.
  • Such a method makes it possible to offer several modes of implementation, for example a static mode where it is planned to keep a threshold T s fixed or a controlled mode where the threshold T s evolves from an initial value T j , in depending on the user's speaking speed
  • a string will generally correspond to a word, while if it takes too high a value, a string will include several words, and if it takes too low a value, a string will only consist of part of a word.
  • the transmission time may be slightly increased.

Abstract

Procédé et système de traitement vocal comprenant un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durée des pauses intéressantes.

Description

Procédé et système de traitement vocal d'une suite de phonèmes.
La présente invention concerne le domaine du traitement vocal de sons, notamment de phonèmes, en vue de faciliter la compréhension par un auditeur.
L'invention s'applique dans les réseaux téléphoniques, et dans les réseaux de communications locaux ou à distance.
Le spectre des fréquences utile dans une conversation vocale entre deux personnes, nécessaire pour une bonne perception, s'étend de 250 à 4000 Hz. Les personnes ayant une déficience auditive entraînant une perte d'audition supérieure ou égale à 92 dB sont considérées comme sourdes. Une perte comprise entre 70 et 90 dB entraîne une déficience considérée comme importante. Les pertes d'audition comprises entre 50 et 60 dB sont considérées comme modérées, même si elles peuvent entraîner un inconfort et une gêne lors de conversations directes ou téléphoniques. Les pertes d'audition sont parfois identifiées uniquement par une baisse de niveau général sur l'ensemble du spectre. Dans de nombreux cas, le niveau de perte est plus important sur certaines fréquences ou zones de fréquences.
Les personnes malentendantes souhaitant s'entretenir par téléphone doivent actuellement faire connaître leur handicap et parvenir à faire comprendre à leurs interlocuteurs que ceux-ci doivent s'exprimer lentement et avec une voix forte.
L'invention propose un traitement vocal peu coûteux, de mise en oeuvre simple pour les utilisateurs et facilitant les conversations téléphoniques avec au moins une personne malentendante. L'invention propose de rendre accessible par le réseau téléphonique un service de correction ne déformant pas la fréquence vocale des interlocuteurs.
L'invention s'applique également pour corriger une conversation téléphonique lorsqu'on doit converser avec un interlocuteur pratiquant une langue étrangère que l'on ne maîtrise pas parfaitement.
Le procédé de traitement vocal, selon ' un aspect de l'invention, est réalisé par ralentissement. On détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, et on élargit les durées des pauses intéressantes.
De préférence, les pauses intéressantes sont sélectionnées selon un critère de durée.
Dans un mode de réalisation de l'invention, la durée des pauses intéressantes est supérieure à un seuil. Le seuil peut être compris entre 50 et 200 ms, préférablement entre 80 et 150 ms, mieux encore de l'ordre 100 ms. De préférence, le seuil est ajustable.
Dans un mode de réalisation de l'invention, le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.
Dans un mode de réalisation de l'invention, si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.
Dans un mode de réalisation de l'invention, la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données. Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.
Dans un mode de réalisation de l'invention, on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.
De préférence, ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.
Ladite demande est effectuée à chaque appel donné ou reçu par ledit interlocuteur. Ladite demande est effectuée à chaque appel donné ou reçu depuis un poste téléphonique déterminé, en conservant une possibilité de désactivation dudit traitement vocal.
Le traitement s'applique, notamment, aux conversations téléphoniques et à des messages enregistrés sur répondeur ou messagerie vocale.
Le système de traitement vocal, selon un aspect de l'invention, comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durées des pauses intéressantes.
Dans un mode de réalisation de l'invention, les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique. Dans un mode de réalisation de l'invention, le système comprend une pluralité de centres à autonomie d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement.
L'invention concerne également un programme d'ordinateur comprenant des moyens de code programme pour mettre en œuvre les étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur. L'invention concerne également un support capable d'être lu par un dispositif de lecture de moyens de code programme qui s'y trouvent stockés et qui sont aptes à la mise en œuvre des étapes du procédé, lorsque ledit programme fonctionne sur un ordinateur.
Grâce à l'invention, on ralentit la vitesse d'élocution d'un premier interlocuteur pour qu'au moins un autre interlocuteur puisse comprendre plus facilement le premier interlocuteur. On améliore de façon importante le confort d'audition. Des personnes malentendantes peuvent ainsi tenir une conversation sur un réseau de télécornmunications ou peuvent utiliser sans difficulté des services vocaux. Le procédé peut être mis en oeuvre par un dispositif du réseau accessible par les personnes malentendantes. Celles-ci peuvent accéder au service mettant en oeuvre le procédé en composant avant ou en cours de communication sur leur combiné téléphonique ou terminal un code par exemple composé de la touche R souvent présente suivi d'un numéro. L'élocution de leur interlocuteur est alors filtrée, pour être débarrassée des bruits parasites, puis analysée afin de pouvoir être ralentie. Le souscripteur du service peut ensuite adapter l'élocution à sa capacité d'écoute en appuyant sur une touche du clavier du combiné pour ralentir plus ou moins fortement l'élocution.
La conversation se trouve ralentie et une insertion de message d'attente permet d'avertir l'interlocuteur ne souffrant pas de déficience auditive et ayant un débit normal d'élocution.
Le débit d'élocution varie très fortement d'un locuteur à un autre. On peut considérer qu'un débit normal est de l'ordre de 9 syllabes/seconde, mais peut aller de 6 à 12 syllabes/seconde. La durée des pauses syntactiques ou de style et des pauses de ponctuation, respiratoires ou associées à des repères de ponctuation, est également variable. Globalement, le nombre de pauses diminue lorsque la vitesse d'élocution augmente. Cependant, cette variation n'est pas régulière mais dépend du type de pauses. Le nombre de pauses liées, par exemple à une interruption nette, est relativement constant quelle que soit la vitesse d'élocution. Une décroissance du nombre de pauses liées à des virgules apparaît allant du rythme lent vers le rythme rapide. Cette décroissance est encore plus prononcée pour les pauses syntactiques non liées à des repères de ponctuation.
A titre d'exemple, une pause liée à une interruption nette, telle que le point marquant la fin d'une phrase, est d'une durée généralement de l'ordre de 100 ms. La durée d'une pause liée à une virgule varie généralement entre 100 et 200 ms, tandis que la durée d'une pause syntactique peut varier entre 30 et 300 ms.
On prévoit donc de fixer un seuil de durée permettant de distinguer entre les types de pauses et de déterminer au moins approximativement les pauses qui présentent la plus grande probabilité d'être reliées à la ponctuation ou à des pauses respiratoires. Les pauses syntactiques indispensables pour la compréhension de la phrase seront ainsi plus rarement affectées par le ralentissement.
De .façon générale, une suite de phonèmes destinée à une personne ayant choisi de ralentir le débit de réception, qu'elle provienne d'un locuteur lors d'une conversation, ou d'un enregistrement effectué au préalable, débute par une phase de filtrage des parasites. On met en oeuvre ensuite une phase d'augmentation du niveau d'émission puis une phase d'élargissement des pauses, en particulier des pauses respiratoires ou de ponctuation. On pourrait également envisager de ralentir les phases d'élocution. Toutefois, on risquerait de modifier de façon importante et gênante la fréquence vocale de la suite de phonèmes. On pourrait alors envisager de corriger la fréquence des phases de suite de phonèmes pour se retrouver au plus près de la fréquence de régime. Cette correction introduit automatiquement de nouvelles pauses syntactiques ou affaiblissements.
Dans le cas d'un réseau téléphonique, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante : - le client A reçoit un appel et souhaite utiliser le service de ralentissement;
- le client A prend la communication et indique à son correspondant qu'il souhaite utiliser le service de ralentissement;
- il appuie sur la touche R du clavier du combiné téléphonique et compose le numéro de téléphone permettant d'activer le ralentissement (en variante, il peut attendre la tonalité après l'appui sur la touche R);
- le correspondant B est alors averti de la mise en oeuvre du ralentissement; - la communication du correspondant B vers le client A est alors traitée de telle façon que le procédé de ralentissement adapte les caractéristiques des suites de phonèmes du correspondant B aux capacités auditives du client A;
- lorsque le client A souhaite élargir les intervalles entre les mots, il peut appuyer sur une touche du clavier, par exemple la touche +, et lorsqu'il souhaite les diminuer, il peut appuyer sur une autre touche, par exemple la touche -.
Dans le cas d'un réseau téléphonique, si le client A est souscripteur du service, le procédé peut être mis en oeuvre par un système lié au réseau et fonctionnant de la façon suivante :
Si l'abonné A n'est pas chez lui, il peut facilement utiliser le service dans le cas où il est l'appelant :
- Le client A compose le numéro du service réseau de ralentissement et se trouve identifié comme souscripteur. - Le serveur vocal du service lui demande de composer le numéro de son correspondant B.
- La cornmunication est établie, la conversation B vers A est traitée et ralentie.
Si l'abonné A n'est pas chez lui et se trouve appelé : - Le client A reçoit d'appel du client B.
- Le client A utilise la fonction double appel et appelle le service de ralentissement en appuyant sur la touche R et en composant un numéro.
- Il est mis en relation avec le service. - Il commande le transfert de l'appel provenant du client B vers le service de ralentissement.
- Il raccroche.
- Le service de ralentissement le rappelle et le met en communication avec le client B. La présente invention sera mieux comprise et d'autres avantages apparaîtront à la lecture de la description détaillée d'un mode de réalisation pris à titre d'exemple nullement limitatif et illustré par les dessins annexés, sur lesquels :
- la figure 1 est une vue schématique d'un réseau téléphonique équipé d'un système de ralentissement;
- la figure 2 est un organigramme des étapes du procédé de ralentissement;
- la figure 3 est un organigramme détaillé de l'étape de ralentissement proprement dite; et - la figure 4 est une variante de la figure 3. Comme on peut le voir sur la figure 1, un interlocuteur 1 est équipé d'un poste téléphonique 2 qui peut être de type privé ou public, par exemple avec un moyen de paiement tel qu'un monnayeur ou un lecteur de carte de crédit. Le poste téléphonique 2 est relié à un centre à autonomie d'acheminement 3, par exemple un autocommutateur.
De façon similaire, l'utilisateur 4 a à sa disposition un poste téléphonique 5 relié à un autre centre à autonomie d'acheminement 6. Un système de ralentissement 7 est apte à établir des communications avec les centres à autonomie d'acheminement 3 et 6. Chaque centre à autonomie d'acheminement 3, 6 est pourvu, à cet effet, d'une interface
8, 9. Bien entendu, les centres à autonomie d'acheminement 3, 6 sont aptes à faire passer des communications par le réseau téléphonique 10 classique, numérique ou analogique. De façon optionnelle, on peut prévoir que les centres à autonomie d'acheminement 3 et 6 sont aptes à établir des communications par l'intermédiaire d'un autre réseau 11, par exemple le réseau Internet, ou encore un réseau Intranet ou autre.
Comme on peut le voir sur la figure 2, le procédé de traitement par ralentissement comprend une étape 12 de filtrage des bruits parasites, suivie d'une étape 13 d'amplification, suivie d'une étape 14 de ralentissement qui sera expliquée plus en détail en référence à la figure 3 et, suivie d'une étape 15 de restitution du signal audio. Les caractéristiques de filtrage et d'amplification peuvent être réglées de façon automatique et/ou par l'utilisateur.
Plus précisément et comme on peut le voir sur la figure 3, l'étape 14 se décompose en une étape 16 dite "d'analyse phonétique datée", qui consiste à séparer le signal audio d'entrée en une liste de phonèmes datés. Un phonème peut être repéré par un numéro d'ordre, une date de début et une date de fin qui peuvent être exprimées à la milliseconde près. Chaque phonème est une unité phonique pertinente pour la communication et capable de produire une différence de communication.
La liste de phonèmes datés est ensuite traitée lors de la sous- étape 17 de séparation en chaînes phonétiques. On effectue une détection visant à identifier les pauses caractérisées par une durée entre deux phonèmes consécutifs supérieure à un seuil Tg. On sépare la liste de phonèmes en chaînes de phonèmes pouvant être assimilées à des mots qui sont ensuite traités lors de l'étape 18 de reconnaissance au cours de laquelle on compare les supposés mots à des mots connus qui peuvent être stockés dans une base de données. Pour des raisons d'économie, on pourra prévoir de ne stocker qu'un nombre limité de mots, par exemple les mots les plus couramment utilisés dans une conversation. L'objectif n'est pas de reconnaître tous les mots, mais un nombre suffisant qui peut être défini par expérimentation pour confirmer ou faire varier l'intervalle Ts entre deux mots.
Si dans une chaîne de phonèmes on reconnaît deux mots, le seuil Ts est trop élevé car cela signifie que la pause entre ces deux mots est de durée inférieure à Tg et n'a pas été prise en considération. On peut alors diminuer Ts d'une durée fixe ou d'un pourcentage. On peut aussi mesurer une durée de mise à jour Tc à partir de phonèmes datés. La durée étant déterminée d'après la durée d'une pause entre deux mots ou d'après une moyenne de durée de pauses inter-mots. On transmet la valeur Tc qui sert à mettre à jour le seuil Ts utilisé dans l'étape 17 de séparation en chaînes phonétiques. Si on ne reconnaît aucun mot, on essaie de travailler sur la somme de la chaîne de phonèmes précédente ajoutée à la chaîne de phonèmes courante pour vérifier si on ne découpe pas trop le signal. Dans ce cas, on peut augmenter la valeur du seuil T. lors d'une mise à jour.
Si le taux de mots reconnus est considéré comme insuffisant après comparaison à un nombre de mots par minute fixé arbitrairement après expérimentation, on peut ramener le seuil Ts progressivement à une valeur par défaut. Si le seuil Ts étant placé à la valeur par défaut, le taux de mots reconnus reste insuffisant, on augmente graduellement le seuil Tg jusqu'à ce qu'on atteigne un nombre de mots reconnus acceptable. Pour améliorer la qualité de service, on pourra prévoir lors de la mise en oeuvre du service par les utilisateurs que le nombre de mots stockés formant une sorte de dictionnaire soit optimisé avec le type de conversation pratiqué par l'utilisateur.
Enfin, lors de l'étape 19, à partir du signal audio d'entrée et du seuil Tg, on détecte les pauses supérieures au seuil Ts et on les allonge en fonction d'une grandeur A, déterminée par l'utilisateur, par exemple au moyen de touches de son combiné téléphonique. A l'issue de l'étape 19, on envoie le signal audio ralenti à l'étape de restitution
15 illustrée sur la figure 2. De façon optionnelle, en vue d'accroître la qualité et le confort d'écoute, on peut prévoir une étape 20 qui, à partir de l'étape
16 d'analyse phonétique datée, mesure le nombre ' de syllabes par seconde. Lorsque le taux de syllabes d'une chaîne de phonèmes devient supérieur à une valeur prédéterminée, par exemple 9 syllabes/seconde, on transmet une grandeur de correction z-^ pour prise en compte lors de l'étape 19 d'adaptation vocale. Lorsque le débit de syllabes est lent ou normal, Δ2 est nul. Lorsque le taux de syllabes devient élevé, les pauses supérieures à Tg peuvent être allongées lors de l'étape 19, de la somme Δj + ^. L'étape 20 de détection de syllabes peut être mise en oeuvre soit à partir de la suite de phonèmes issue de l'étape 16, ou encore à partir de mots reconnus lors de l'étape 18.
Un tel procédé permet d'offrir plusieurs modes de mise en oeuvre, par exemple un mode statique où on prévoit de conserver un seuil Ts fixe ou un mode asservi où le seuil Ts évolue à partir d'une valeur initiale Tj, en fonction de la vitesse d'élocution de l'utilisateur
2 s'adressant à l'utilisateur 1. Toutes les pauses supérieures au seuil Ts sont allongées d'une valeur A-, ou d'une valeur Al + A^. ou encore de la seule valeur Δ2.
On comprend que si le seuil Ts est à une valeur adaptée, une chaîne correspondra généralement à un mot, tandis que s'il prend une valeur trop élevée, une chaîne englobera plusieurs mots, et s'il prend une valeur trop faible, une chaîne ne sera constituée que par une partie d'un mot.
Plus particulièrement, dans le cas d'une communication entre un utilisateur 1 malentendant et un utilisateur 4 d'audition normale, on peut prévoir que la transmission entre l'utilisateur 1 et l'utilisateur 4 se fasse de façon normale, par exemple par le réseau 10. La communication entre l'utilisateur 4 et l'utilisateur 1 s'effectue par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie d'acheminement 3, la communication faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7.
Dans le cas d'une communication entre deux utilisateurs 1 et 4 malentendants, on peut prévoir que la communication dans les deux sens s'effectue par l'intermédiaire du système 7, plus précisément par l'intermédiaire du centre à autonomie d'acheminement 6, de l'interface 9, du système 7, de l'interface 8, du centre à autonomie d'acheminement 3, de l'utilisateur 4 vers l'utilisateur 1, et du centre à autonomie d'acheminement 3, de l'interface 8, du système 7, de l'interface 9, du centre à autonomie d'acheminement 6, de l'utilisateur 1 vers l'utilisateur 4, la communication dans les deux sens faisant l'objet d'un ralentissement par augmentation de certaines pauses au moyen du système 7. En variante, on peut prévoir que le système 7 recevant une communication à ralentir en provenance de l'interface 8 du centre à autonomie d'acheminement 3, effectue le traitement de ralentissement et renvoie la communication ralentie vers l'interface 8, le centre à autonomie d'acheminement 3 établissant une liaison normale vers le centre à autonomie d'acheminement 6. Toutefois, le délai de transmission risque d'être légèrement augmenté.

Claims

REVENDICATIONS
1. Procédé de traitement vocal par ralentissement, dans lequel on détecte des pauses dans une suite de phonèmes, on sélectionne les pauses intéressantes, on élargit les durées des pauses intéressantes.
2. Procédé selon la revendication 1, dans lequel les pauses intéressantes sont sélectionnées selon un critère de durée.
3. Procédé selon la revendication 2, dans lequel la durée des pauses intéressantes est supérieure à un seuil.
4. Procédé selon la revendication 3, dans lequel le seuil est ajustable.
5. Procédé selon la revendication 4, dans lequel le seuil est ajusté en fonction du nombre de mots reconnus dans une suite de phonèmes.
6. Procédé selon la revendication 5, dans lequel si le nombre de mots reconnus est considéré comme trop faible, on diminue ledit seuil.
7. Procédé selon la revendication 5 ou 6, dans lequel la reconnaissance de mots est effectuée par comparaison d'un ensemble consécutif de phonèmes entre deux pauses intéressantes avec une liste de mots stockés dans une base de données.
8. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur déterminée par un utilisateur, ou d'une valeur constante.
9. Procédé selon l'une quelconque des revendications précédentes, dans lequel on élargit les durées des pauses intéressantes d'une valeur dépendant du débit de la suite de phonèmes.
10. Procédé selon l'une quelconque des revendications précédentes, dans lequel ledit traitement vocal est appliqué, dans une conversation téléphonique, sur demande d'un des interlocuteurs à toute suite de phonèmes devant être reçue par ledit interlocuteur.
11. Système de traitement vocal (7), caractérisé par le fait qu'il comprend un moyen de détection des pauses dans une suite de phonèmes, un moyen de sélection des pauses intéressantes, et un moyen d'élargissement des durées des pauses intéressantes.
12. Système selon la revendication 11, caractérisé par le fait que les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement font partie d'un dispositif relié à un réseau téléphonique.
13. Système selon la revendication 11, caractérisé par le fait qu'il comprend une pluralité de centres à autonomie • d'acheminement chacun reliés à pluralité de postes téléphoniques, chaque centres à autonomie d'acheminement étant apte à dérouter une suite de phonèmes vers les moyens de détection des pauses, de sélection des pauses intéressantes et d'élargissement.
PCT/FR2001/003944 2000-12-14 2001-12-11 Procede et systeme de traitement vocal d'une suite de phonemes WO2002049002A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2002219284A AU2002219284A1 (en) 2000-12-14 2001-12-11 Method and system for voice processing of a series of phonemes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR00/16329 2000-12-14
FR0016329A FR2818479B1 (fr) 2000-12-14 2000-12-14 Procede et systeme de traitement vocal d'une suite de phonemes

Publications (1)

Publication Number Publication Date
WO2002049002A1 true WO2002049002A1 (fr) 2002-06-20

Family

ID=8857667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2001/003944 WO2002049002A1 (fr) 2000-12-14 2001-12-11 Procede et systeme de traitement vocal d'une suite de phonemes

Country Status (3)

Country Link
AU (1) AU2002219284A1 (fr)
FR (1) FR2818479B1 (fr)
WO (1) WO2002049002A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806415A1 (fr) * 2013-05-23 2014-11-26 Fujitsu Limited Procédé et système de traitement vocal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434924A (en) * 1987-05-11 1995-07-18 Jay Management Trust Hearing aid employing adjustment of the intensity and the arrival time of sound by electronic or acoustic, passive devices to improve interaural perceptual balance and binaural processing
EP0736995A2 (fr) * 1995-04-07 1996-10-09 Texas Instruments Incorporated Améliorations apportées à la reconnaissance de parole
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5970156A (en) * 1997-02-14 1999-10-19 Telefonaktiebolaget Lm Ericsson Method and apparatus for reducing periodic interference in audio signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434924A (en) * 1987-05-11 1995-07-18 Jay Management Trust Hearing aid employing adjustment of the intensity and the arrival time of sound by electronic or acoustic, passive devices to improve interaural perceptual balance and binaural processing
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
EP0736995A2 (fr) * 1995-04-07 1996-10-09 Texas Instruments Incorporated Améliorations apportées à la reconnaissance de parole
US5970156A (en) * 1997-02-14 1999-10-19 Telefonaktiebolaget Lm Ericsson Method and apparatus for reducing periodic interference in audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MCKINLEY B L ET AL: "MODEL BASED SPEECH PAUSE DETECTION", 1997 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. SPEECH PROCESSING. MUNICH, APR. 21 - 24, 1997, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), LOS ALAMITOS, IEEE COMP. SOC. PRESS, US, vol. 2, 21 April 1997 (1997-04-21), pages 1179 - 1182, XP000822663, ISBN: 0-8186-7920-4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2806415A1 (fr) * 2013-05-23 2014-11-26 Fujitsu Limited Procédé et système de traitement vocal
CN104183246A (zh) * 2013-05-23 2014-12-03 富士通株式会社 语音处理装置及语音处理方法
US9443537B2 (en) 2013-05-23 2016-09-13 Fujitsu Limited Voice processing device and voice processing method for controlling silent period between sound periods

Also Published As

Publication number Publication date
AU2002219284A1 (en) 2002-06-24
FR2818479B1 (fr) 2003-03-07
FR2818479A1 (fr) 2002-06-21

Similar Documents

Publication Publication Date Title
EP1221249B1 (fr) Identification d'intervenant dans une telereunion
EP0974221B1 (fr) Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
CA2294442C (fr) Systeme et procede de codage et de diffusion d'informations vocales
EP0867856B1 (fr) "Méthode et dispositif de detection d'activité vocale"
FR2708404A1 (fr) Procédé de numérotation programmée pour téléphones cellulaires.
FR2504332A1 (fr) Systeme de limitation d'appels sortant d'un standard par reconnaissance vocale
EP3078027A1 (fr) Procédé de détection de la voix
JP3998724B2 (ja) 対話式装置
EP1847088B1 (fr) Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
WO2002049002A1 (fr) Procede et systeme de traitement vocal d'une suite de phonemes
FR2713800A1 (fr) Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée.
EP0301957A1 (fr) Procédé et circuit de gestion d'audioconférence
EP1287668B1 (fr) Procede et dispositif de gestion de mise en relation sans divulgation de numero de telephone
EP1294164B1 (fr) Navigation adaptative dans un système vocal interactif
FR2642882A1 (fr) Appareil de traitement de la parole
EP1334607B1 (fr) Procede pour associer des messages ecrits a des messages vocaux a travers le reseau telephonique public commute
CA2506549C (fr) Procede de traitement de donnees audio sur un reseau et dispositif de mise en oeuvre de ce procede
EP1244281B1 (fr) Méthode et dispositif permettant d'offrir un ensemble de services vocaux personnalisables à un utilisateur dans un réseau de télécommunication vocal
EP1625738A1 (fr) Procede et dispositif de transfert de caracteristiques d'une fonctionnalite
FR2647613A1 (fr) Accueil telephonique assiste
EP2070302A2 (fr) Automatisation de la configuration d'un terminal de telecommunication
FR2846826A1 (fr) Systeme et procede d'enregistrement et de diffusion de conversation telephonique.
FR2867008A1 (fr) Procede et systeme de composition automatique de messages textuels sur un clavier telephonique
WO2005009016A1 (fr) Procede et dispositif d'activation d'un transfert d'au moins un message court
FR2827106A1 (fr) Procede et dispositif d'aide a la communication interpersonnelle, et systeme de telecommunications incorporant un tel dispositif

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP