WO2009071795A1 - Systeme d'interpretation simultanee automatique - Google Patents

Systeme d'interpretation simultanee automatique Download PDF

Info

Publication number
WO2009071795A1
WO2009071795A1 PCT/FR2008/052077 FR2008052077W WO2009071795A1 WO 2009071795 A1 WO2009071795 A1 WO 2009071795A1 FR 2008052077 W FR2008052077 W FR 2008052077W WO 2009071795 A1 WO2009071795 A1 WO 2009071795A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
sentence
source
translation
phonemes
Prior art date
Application number
PCT/FR2008/052077
Other languages
English (en)
Inventor
Jean Grenier
Original Assignee
Bonneton, William
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bonneton, William filed Critical Bonneton, William
Priority to JP2010533647A priority Critical patent/JP2011504624A/ja
Priority to EP08856853A priority patent/EP2215626A1/fr
Priority to US12/742,298 priority patent/US8606560B2/en
Priority to CN200880116632A priority patent/CN101861621A/zh
Publication of WO2009071795A1 publication Critical patent/WO2009071795A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Le système d'interprétation comporte : un moyen d'acquisition optique ou acoustique d'une phrase écrite ou prononcée dans une langue source et un moyen de restitution du son; un moyen de reconnaissance (30) pour générer, à partir d'un signal d'entrée acquis par le moyen d'acquisition, une phrase source qui est une transcription de la phrase dans la langue source; un moyen de traduction (32) pour générer, à partir de la phrase source, une phrase cible qui est une traduction de la phrase source dans une langue cible; et, un moyen de synthèse vocale (34) pour générer, à partir de la phrase cible, un signal sonore de sortie apte à être reproduit par le moyen de restitution du son. Selon l'invention le système d'interprétation comporte un moyen de lissage (40) pour appeler les moyens de reconnaissance (30), de traduction (32) et de synthèse vocale (35) pour produire, en temps réel, une interprétation dans la langue cible de la phrase dans la langue source.

Description

Système d'interprétation simultanée automatique
La présente invention est relative à un système d'interprétation simultanée automatique. En linguistique, on entend par interprétation simultanée la restitution orale faite dans une langue cible, au fur et à mesure de la diction, d'un contenu prononcé dans une langue source. Le terme d'interprétation est préféré au terme de traduction qui, au sens strict, concerne uniquement l'écrit.
Selon l'état de la technique, il est connu des dispositifs de reconnaissance vocale. Par exemple le logiciel commercialisé sous le nom "Dragon Naturally Speaking" par la société SCANSOFT, permet de transcrire à l'écran, un texte dicté par un orateur. Au cours de la lecture à haute voix, l'orateur enrichit le texte d'informations relatives à la graphie des terminaisons ambiguës, à la ponctuation, etc.
Par ailleurs, il existe des logiciels de traduction qui permettent de traduire un texte en une langue source, en un texte en une langue cible. Par exemple, le logiciel Systran, commercialisé par l'entreprise du même nom, permet la traduction automatique sur la base de règles grammaticales, de règles stylistiques et d'un dictionnaire, éventuellement évolutif.
Enfin, et toujours par ailleurs, il existe des logiciels de synthèse vocale aptes à produire une restitution sonore d'un texte affiché par exemple sur l'écran d'un ordinateur. Le logiciel commercialisé sous la marque « Speak Back », fondé sur une technologie France TELECOM, est un exemple de tels logiciels de synthèse vocale.
Le document WO-2003-052624 décrit un système d'interprétation du type comportant : au moins un moyen d'acquisition d'une phrase prononcée dans une langue source et au moins un moyen de restitution du son ; un moyen de reconnaissance vocale pour générer, à partir d'un signal d'entrée acquis par le moyen d'acquisition du son, une phrase source qui est une transcription de la phrase prononcée dans la langue source ; un moyen de traduction pour générer une phrase cible qui est une traduction de la phrase source dans une langue cible ; et, un moyen de synthèse vocale pour générer, à partir de la phrase cible, un signal sonore de sortie apte à être restitué par ledit moyen de restitution du son.
Mais, le système d'interprétation décrit n'apparaît que comme la juxtaposition des moyens de reconnaissance vocale, de traduction et de synthèse vocale. En particulier, le système d'interprétation décrit ne comporte pas de moyens pour que le processus de traitement d'une phrase, depuis son acquisition jusqu'à sa restitution, soit réalisé avec efficacité.
L'invention a donc pour but de pallier ce problème en proposant un système d'interprétation amélioré permettant au processus de traitement d'une phrase d'être réalisé en temps réel, c'est-à-dire en minimisant les temps morts du traitement.
Pour cela, l'invention a pour objet un système d'interprétation du type précité, caractérisé en ce qu'il comporte un moyen de lissage apte à appeler séquentiellement lesdits moyens de reconnaissance, de traduction et de synthèse vocale pour produire, en temps réel, une interprétation dans la langue cible de la phrase dans la langue source.
Suivant des modes particuliers de réalisation, le système comporte une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniques possibles :
- ledit moyen de traduction comporte un dictionnaire de la langue source vers la langue cible,
- ledit moyen de synthèse vocale comporte un dictionnaire phonétique associant la graphie d'un mot à une suite de phonèmes et un ensemble de règles de prononciation des phonèmes de la langue cible pour produire ledit signal sonore de sortie,
- ledit moyen de lissage comporte des moyens de communication permettant un échange de messages entre lesdits moyens de reconnaissance, de traduction et de synthèse vocale, d'une part, et ledit moyen de lissage, d'autre part,
- les moyens de communication comportent une file d'attente associée en entrée de chacun des moyens de reconnaissance, de traduction, de synthèse vocale, et de lissage.
- un message comporte une requête et un argument,
- ledit moyen d'acquisition est un moyen d'acquisition optique et ledit moyen de reconnaissance est un moyen de reconnaissance optique apte à produire la phrase source à partir d'une phrase écrite dans la langue source acquise par ledit moyen d'acquisition optique, - ledit moyen d'acquisition est un moyen d'acquisition du son et ledit moyen de reconnaissance est un moyen de reconnaissance vocale apte à produire la phrase source à partir d'une phrase prononcée dans la langue source acquise par ledit moyen d'acquisition du son,
- ledit moyen de reconnaissance vocale comporte :
• un moyen d'identification de phonèmes permettant de décomposer le signal sonore d'entrée en une suite de phonèmes ;
• un moyen de regroupement apte à grouper des phonèmes entre eux pour former une suite de groupes de phonèmes à partir de la suite de phonèmes ; et,
• un moyen de transcription apte à associer à un groupe de phonèmes une graphie d'un mot, de manière à produire une phrase source à partir de la suite de groupes de phonèmes, ledit moyen de transcription comportant un répertoire de la langue source associant à un groupe de phonèmes un groupe de graphies de mots et une série de règles permettant de sélectionner une graphie particulière parmi le groupe de graphies de mots,
- il permet une interprétation bidirectionnel, le système étant apte à produire, selon un premier canal, une interprétation en une seconde langue cible d'un discours en une première langue source, et à produire, selon un second canal, une interprétation en une seconde langue cible d'un discours en une seconde langue source, les première langue source et seconde langue cible, d'une part, et les seconde langue source et première langue cible, d'autre part, étant identiques, ledit système comportant, en outre, un premier moyen d'acquisition du son et un premier moyen de restitution du son, et un second moyen d'acquisition du son et un second moyen de restitution du son,
- il comporte un premier moyen de reconnaissance vocale spécifique à la première langue source et un second moyen de reconnaissance vocale spécifique à la seconde langue source, les moyens de traduction et de synthèse vocale fonctionnant pour l'un ou l'autre des premier et second canaux
- il comporte un premier moyen de reconnaissance vocale, un premier moyen de traduction et un premier moyen de synthèse vocale spécifiques audit premier canal et un second moyen de reconnaissance vocale, un second moyen de traduction et un second moyen de synthèse vocale spécifiques audit second canal d'interprétation.
L'invention sera mieux comprise à la lecture de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés sur lesquels :
- la figure 1 est une représentation d'artiste du système d'interprétation dans une mode de réalisation portatif ;
- la figure 2 est une représentation schématique de la partie de matériel du système de la figure 1 ;
- la figure 3 est un schéma blocs des différents modules de la partie de logiciel du système de la figure 1 ; et,
- la figure 4 est un organigramme du fonctionnement du module de reconnaissance de la figure 3.
En se référant à la figure 1 , un mode de réalisation portatif du système d'interprétation simultanée selon l'invention est représenté. Il s'agit d'un boîtier 1 de petite dimension que l'utilisateur peut porter autour du cou au moyen d'une lanière.
Le système est muni d'une oreillette 3 et d'un premier micro 4 qui constituent respectivement un premier moyen de restitution du son et un premier moyen d'acquisition du son pour l'utilisateur du système d'interprétation.
Le système est muni d'un petit haut-parleur 5 et d'un second micro 6 logé au fond d'une cavité 7 qui constituent respectivement un second moyen de restitution du son et un second moyen d'acquisition du son pour un interlocuteur. Ces seconds moyens 5 et 6 sont disposés sur une même face avant du boîtier 1.
Par interlocuteur, on désigne ici, de manière générale, l'individu avec lequel l'utilisateur souhaite communiquer oralement. On notera que cet interlocuteur peut être indéfini dans le cas d'une utilisation du système pour capter des sons ambiants produits par des sources différentes.
Le système est bidirectionnel car il permet à la fois l'interprétation du discours de l'interlocuteur s'exprimant dans une langue L2 vers une langue L1 comprise de l'utilisateur, ainsi que l'interprétation du discours de l'utilisateur s'exprimant dans la langue L1 vers la langue L2 de l'interlocuteur. Un premier canal de fonctionnement correspond ainsi au traitement du signal sonore d'entrée capté par le premier micro 4, la langue L1 correspondant alors à la langue source, pour produire un signal sonore de sortie émis par le second haut-parleur 6, la langue L2 apparaissant alors comme la langue cible de ce premier canal.
Inversement, un second canal de fonctionnement correspond au traitement du signal sonore capté par le second micro 6, la langue L2 correspondant ici à la langue source, pour produire un signal émis par le premier haut-parleur 3, la langue L1 apparaissant alors comme langue cible de ce second canal.
Dans la partie supérieure du boîtier 1 , l'utilisateur dispose d'un écran 8 pour visualiser des informations et d'un bouton 9 pour interagir avec le système. Le bouton 9 peut par exemple être une molette rotative et « cliquable » pour sélectionner un élément dans un menu déroulant présenté à l'écran.
En se réfèrent à la figure 2, le système comporte, dans sa partie de matériel, des moyens de mémorisation, tels qu'une mémoire morte 11 et une mémoire vive 12, des moyens de calcul, tels qu'un processeur 13, et une interface d'entrée- sortie 10 assurant l'échange de signaux numériques avec les premier et second micros 4 et 6, l'oreillette 3 et le haut-parleur 5, et des moyens matériels d'interface, l'écran 8 et la molette 9 de sélection par exemple.
Sur la figure 3, la partie de logiciel du système selon l'invention est une application 25 fonctionnant avec un système d'exploitation 20 de la partie de matériel, tel que le logiciel Windows XP développé par la société MICROSOFT. L'application logicielle d'interprétation simultanée 25 comporte une suite d'instructions, stockées dans la mémoire morte 11 , et aptes à être exécutées par le processeur 13.
Pour plus de clarté, en se limitant au traitement des données selon le premier canal, l'application 25 comporte un ensemble de modules logiciels représentés schématiquement sur la figure 3.
Un premier module 30, dit de reconnaissance vocale ("Automated Speech Récognition" en anglais) prend en entrée un signal sonore généré par le premier moyen d'acquisition du son et le transcrit, en temps réel, en une phrase source. Une phrase source est un objet du type texte correspondant à une estimation de la phrase effectivement prononcée. Ce premier module 30 comporte une table de phonèmes caractéristiques de la langue source, un répertoire associant un groupe de phonèmes de la langue source à un groupe de graphies de mots, ainsi qu'une série de règles pour sélectionner une graphie particulière dans ce groupe de graphies, en fonction par exemple du contexte, des mots qui précèdent ou suivent le mot considéré, etc.
Un second module 32, dit de traduction ("Translation" en anglais) prend en entrée la phrase source et la traduit de la langue source vers la langue cible. Le module de traduction 32 produit une phrase cible. Une phrase cible est un objet du type texte correspondant à une estimation de la traduction de la phrase source. Ce second module 32 comporte un dictionnaire associant un mot de la langue source à un groupe de mots de la langue cible et une série de règle de traduction permettant de sélectionner un mot particulier dans ce groupe de mots, par exemple sur la base du contexte dans lequel le mot considéré est utilisé.
Un troisième module 34, dit de prononciation ou de synthèse vocale ("Text to speech" en anglais) prend en entrée la phrase cible et synthétise un signal sonore de sortie. Ce signal, transmis au second moyen de restitution du son, correspond à une séquence de phonèmes de la langue cible reproduisant de manière sonore la phrase cible. Ce troisième module 34 comporte un dictionnaire phonétique associant à un mot dans la langue cible une suite de phonèmes, ainsi qu'une table de prononciation associant à un phonème un signal sonore élémentaire de prononciation.
Un module d'interface homme-machine 36 permet d'afficher des données sur l'écran 8 et d'offrir la possibilité à l'utilisateur de saisir des données au moyen de la molette 9. Dans une variante de réalisation, le module 36 affiche le texte en langue L1 sortant du module de reconnaissance 30 et/ou en langue L2 sortant du module de traduction 32 sur le dispositif d'affichage 8 pour permettre à l'utilisateur de filtrer et d'enrichir ces textes affichés avant de les valider pour l'opération élémentaire suivante.
Enfin, l'application 25 comporte un module de lissage 40. Le module de lissage 40 est constitué d'une machine à états.
Dans un état de configuration, le module 40 prend en charge la configuration du système selon les préférences de l'utilisateur. Les paramètres de configuration modifiables sont par exemple la langue L1 , la langue L2, un identifiant de l'utilisateur pour lequel le module de reconnaissance vocal 30 aura « appris » à reconnaître la voix, le rendu de la voix de synthèse, etc. Ces paramètres de configuration sont regroupés dans un profil mémorisé par le système.
Dans un état de traitement, le module de lissage 40 joue le rôle d'une interface de bas niveau entre les différents modules 30, 32, 34, 36. Il assure le sé- quençage des différentes opérations élémentaires du processus d'interprétation d'une phrase prononcée. Il est apte à activer de manière ordonnée les modules 30, 32 puis 34 pour produire en temps réel l'interprétation d'une phrase, c'est-à- dire pour produire une interprétation en annulant les temps de latence entre deux opérations élémentaires effectuées par deux modules 30, 32 ou 34 différents.
Pour ce faire, le module de lissage 40 implémente des services de communication entre les quatre modules 30-36 indépendants. La communication entre modules est fondée sur l'échange de messages. Un message comporte une requête, une demande de traduction par exemple, ou signale un événement, une traduction terminée par exemple. Eventuellement, ce message comporte, en outre, un ou plusieurs arguments sur lesquels doit porter la requête.
Le module de lissage 40 comporte un mécanisme d'échange de messages depuis les modules 30, 32 et 34 vers le module 40. Les messages envoyés par les modules 30, 32 et 34 vers le module de lissage 40 sont respectivement : « phrase reconnue » depuis le module 30 avec comme argument un texte correspondant à une phrase en langue source ; « traduction réalisée » depuis le module 32 avec comme argument un texte correspondant à une phrase en langue cible ; et « voix synthétisée » depuis le module 34 indiquant que le signal vocal de sortie a été complètement émis.
Le module de lissage 40 comporte un mécanisme d'échange de messages depuis le module 40 vers les modules 30, 32 et 34. Ces messages sont respectivement : « indication de signal sonore » vers le module 30, ayant, comme argument, un bloc de données numérisées représentant un signal vocal échantillonné ; « demande de traduction » vers le module 32 avec comme argument un texte correspondant à une phrase en langue source ; et « demande de synthèse vocale » vers le module 34 avec comme argument un texte correspondant à une phrase en langue cible.
Enfin le module de lissage 40 comporte un mécanisme de files d'attente. Une file d'attente est associée à l'entrée de chaque module 30, 32, 34, .36 et 40. Ce mécanisme de file d'attente permet une mise en mémoire momentanée du résultat d'une opération élémentaire de traitement en attendant que le module suivant de la chaîne de traitement puisse débuter le traitement dudit résultat. Lorsqu'un module envoie un message à un autre module, le message émis est placé dans la file d'attente en entrée du module destinataire. Lorsque le module destinataire est inactif, il est en attente d'un changement d'état de sa file d'attente, c'est-à-dire en attente de l'arrivée d'un message. Lors de l'arrivée d'un tel message, le module destinataire bascule dans un état actif. Il extrait alors de sa file d'attente le message reçu, exécute le traitement requis par le contenu de ce message, envoie en sortie un ou plusieurs messages à un ou plusieurs autres modules, puis bascule à nouveau dans l'état inactif. Si un nouveau message est placé dans la file d'attente du module destinataire alors qu'il est dans l'état actif, ce message reste dans la file d'attente jusqu'à ce que le module ait eu l'occasion de basculer dans l'état inactif et de scruter sa file d'attente. Si plusieurs messages sont placés dans la file d'attente, les messages s'accumulent dans l'ordre dans lequel ils ont été reçus et sont traités par le module destinataire suivant cet ordre d'arrivée.
Lorsque le système est mis sous tension, le module de lissage 40 est activé et il pilote toutes les opérations jusqu'à la mise hors tension du système.
Le module 40 peut être dans l'un des deux états principaux de « configuration » ou de « traitement », chacun de ces deux états comportant des sous états.
Dans l'état de configuration, le système est dans une étape de configuration au cours de laquelle l'utilisateur crée ou sélectionne un profil via le module d'interface 36. Par exemple, un moyen de sélection de langues du module d'interface 36 permet de choisir à l'écran 8, dans un menu déroulant, les langues source et cible. Les dictionnaires associés seront alors chargés en mémoire vive lors de l'étape d'initialisation pour fonctionner avec le module de traduction 32. Par ailleurs, un moyen de sélection du niveau sonore du module d'interface 36 permet de choisir la valeur seuil du niveau sonore du second micro 6 tourné vers le monde extérieur, de manière à traduire les propos d'un locuteur particulier (valeur seuil élevée) ou à traduire l'ensemble des sons captés dans l'environnement (valeur seuil réduite ou basse). Lorsque, sur requête de l'utilisateur, le module de lissage 40 bascule depuis l'état de configuration vers l'état de traitement, il initialise les trois modules 30, 32 et 34 avec les paramètres sélectionnées. Puis ces trois modules dont exécutés.
La chaîne de traitement d'une phrase prononcée va maintenant être décrite en détail.
Lors de son exécution, le module de reconnaissance 30 se met en surveillance du premier moyen d'acquisition du son. Le module de reconnaissance 30 analyse le signal en entrée pour détecter une phrase prononcée dans la langue source. Ce mécanisme sera décrit plus en détail ci-dessous. Lorsque le module de reconnaissance 30 a détecté une telle phrase, l'objet phrase source résultant est placé, par le module de reconnaissance 30, dans la file d'attente du module de lissage 40 en tant qu'argument d'un message de « phrase reconnue ».
Lorsque le module de lissage 40 extrait de sa file d'attente un message de « phrase reconnue », il place la phrase source argument de ce message dans la file d'attente d'entrée du module de traduction 32, en tant qu'argument d'un message de "demande de traduction".
En variante, le processus de traitement comporte une étape supplémentaire consistant à faire afficher la phrase source sur l'écran 8 par l'intermédiaire du module 36, pour qu'elle soit validée par l'utilisateur avant d'en demander la traduction par le module 32.
Au cours de son exécution, le module de traduction 32 se met en mode inactif de surveillance de sa file d'entrée. Lorsqu'il trouve un message de « demande de traduction », il traduit la phrase source passée en argument de ce message. Cette opération élémentaire peut prendre quelque temps. Lorsque la phrase source est traduite, le module de traduction 32 envoie, au module de lissage 40, un message de « traduction réalisée », avec la phrase cible en tant qu'argument.
Lorsque le module de lissage 40 n'est pas occupé, il examine sa file d'attente de messages. Lorsqu'il y trouve un message de « traduction réalisée », il prend la phrase cible et envoie un message de "demande de synthèse vocale" au module de synthèse vocale 34 avec ladite phrase cible en tant qu'argument du message. En variante, le processus de traitement comporte une étape supplémentaire consistant à faire afficher la phrase cible sur l'écran 8 par l'intermédiaire du module 36, pour qu'elle soit validée par l'utilisateur avant d'en demander la synthèse par le module 34.
Lors de son lancement, le module de synthèse vocale 34 se met en attente d'une demande de synthèse vocale d'une phrase cible. Dans l'intervalle le module de synthèse vocale 34 génère un signal constant, typiquement un silence, à destination du moyen de restitution du son du canal.
Lorsque le module de synthèse vocale 34 n'est pas occupé à synthétiser la phrase cible précédente, il examine sa file de messages en entrée. Lorsqu'il y trouve un message de « demande de synthèse vocale », il synthétise la phrase cible passée en argument de ce message et émet un signal correspondant en direction du moyen de restitution du son. Là encore cette opération élémentaire peut prendre plusieurs secondes. Lorsque le signal audio a été complètement émis, le module de synthèse vocale 34 envoie un message de « synthèse terminée » au module de lissage 40, et génère un signal audio correspondant à un silence.
On notera que le module d'interface 36 peut afficher sur l'écran 8 une description visuelle symbolique de l'état d'avancement du processus de traitement sur la phrase courante.
Le module de reconnaissance vocale 30 doit s'affranchir de la difficulté qui provient de ce que l'unité de sens, dont la traduction correspondra le mieux à l'idée qu'exprime l'orateur, se termine graphiquement par un point. Or, à l'oral, cet élément de terminaison de l'unité de sens n'existe plus. Il faut donc estimer la fin d'une phrase. L'organigramme de la figure 4 représente schématiquement les opérations de traitement élémentaires réalisées par le module de reconnaissance vocale 30 selon l'invention.
Pendant un intervalle dt, qui est de durée variable et qui correspond à la durée séparant deux blancs dans le discours capté en entrée du canal, le signal sonore d'entrée 101 est analysé pour y reconnaître des phonèmes. Pour mémoire, une langue donnée ne comporte qu'un nombre réduit de phonèmes. Le résultat de cette étape d'identification 102 est une suite de phonèmes 103 pendant l'intervalle dt. Puis, les phonèmes de cette suite de phonèmes 103 sont regroupés entre eux au cours d'une étape de regroupement 104. Le résultat de cette opération est la production d'une suite de groupes de phonèmes 105. A chacun de ces groupes de phonèmes est ensuite associée une graphie particulière. Ceci est effectué à l'étape 106 de transcription qui utilise le répertoire associant à un groupe de phonèmes un groupe de graphies de mots, et qui applique ensuite les règles permettant de sélectionner une graphie particulière parmi le groupe de graphies de mots. Finalement, une suite de mots 107 pendant l'intervalle dt, qui est une variable du type texte, est produite. Le traitement élémentaire qui vient d'être décrit se fait en temps réel, en même temps que le discours est prononcé. Les suites de mots d'un intervalle de temps à l'autre sont stockées en mémoire.
En fait, une suite de mots 107 est un texte auquel est associé une probabilité quantifiant la pertinence que les opérations de transcription reproduisent effectivement le morceau de phrase qui a été prononcé.
Le module de reconnaissance vocale 30 comporte des moyens d'estimation de la fin d'une phrase qui associent plusieurs suites de mots pour essayer de produire une phrase source. Ces moyens d'estimation sont représentés dans la partie inférieure de l'organigramme de la figure 4. Pour cela le module de reconnaissance vocale 30 extrait la dernière suite de mots 107 et l'affecte à une variable Séquence à dt. A l'étape 110, une valeur de la variable Séquence à l'instant t est obtenue par la concaténation de la valeur actuelle d'une variable Séquence à l'instant t-dt et de la variable Séquence à dt.
A l'étape 111 , la probabilité de l'objet Séquence à t est comparée à la valeur de la probabilité de l'objet Séquence à t-dt.
Si la probabilité associée à l'objet Séquence à l'instant t est supérieure à la probabilité qui a été associée à l'objet Séquence à l'instant t-dt, alors l'objet Séquence à l'instant t se rapproche plus d'une unité de sens que l'objet Séquence à l'instant précédent t-dt. Le traitement se poursuit alors en suivant le lien 112, et l'objet Séquence à l'instant t est mémorisé en tant que Séquence à l'instant t-dt précédent (étape 113) en vue du traitement de la suite de mot 107 suivante dans le temps. L'exécution du module 30 boucle alors sur l'étape 110 par le lien 114.
En revanche, si la probabilité associée à l'objet Séquence à l'instant t est inférieure à la probabilité associée à l'objet Séquence à l'instant t-dt, cela signifie que l'objet Séquence à l'instant t s'éloigne d'une unité de sens par comparaison à l'objet Séquence à l'instant t-dt. L'exécution du module 30 se poursuit alors en suivant le lien 120. La valeur de l'objet Séquence à l'instant précédent t-dt est affectée à un objet Phrase Source à l'étape 121 car il est estimé que cette séquence forme une unité de sens. Pour le traitement de la suite de mots 107 à l'intervalle dt suivant, l'objet Séquence à l'instant t-dt est initialisé (étape 122) avec la suite de mots 107 à l'intervalle dt présent qui n'a pas été retenue pour former la phrase source car il est estimé que cette séquence forme le début d'une autre phrase source. Ainsi, le module de reconnaissance vocale 30 génère une phrase source 130. L'exécution du module 30 boucle alors sur l'étape 110 par le lien 114.
Pour l'implémentation d'un système bidirectionnel apte à réaliser une interprétation simultanée selon les premier et second canaux, plusieurs modes de réalisation sont envisagés.
Dans un mode de réalisation à deux machines réelles, le système comporte deux parties de matériel identiques, chaque partie de matériel étant dédiée à l'un des deux canaux de traduction. La première machine réelle est par exemple connectée au premier moyen d'acquisition du son et au second moyen de restitution du son, tandis que la seconde machine réelle est connectée au second moyen d'acquisition du son et au premier moyen de restitution du son. Chaque partie de matériel exécute un système d'exploitation 20 et l'application 25. Le traitement selon le premier canal est ainsi complètement découplé du traitement selon le second canal. Chaque machine réelle peut comporter son propre écran et son propre module d'interface 36 ou partager un même écran avec un module d'interface 36 commun.
Dans un second mode de réalisation à deux machines virtuelles, le système comporte une unique partie de matériel sur laquelle sont exécutés en parallèle deux systèmes d'exploitation 20. Chaque système d'exploitation 20 définie une machine virtuelle exécutant l'application d'interprétation 25. Chaque machine virtuelle est dédiée à un canal particulier.
Enfin, dans un troisième mode de réalisation, le système comporte une partie de matériel et un unique système d'exploitation. Soit le système exécute en parallèle deux instanciations de l'application 25, chacune d'entre elles étant dédiée à un canal. L'application 25 est alors dupliquée pour que le système d'interprétation comporte une première application dédiée au traitement des données spécifiques au premier canal et une seconde application dédiée au traitement des données spécifiques aux second canal. Ainsi, le module de reconnaissance 30 de la première application comporte un répertoire de la langue L1 , alors que le module de reconnaissance de la seconde application comporte un répertoire de la langue l_2. De manière similaire, le module de traduction 32 de la première application comporte un dictionnaire de la langue L1 vers la langue L2, alors que le module de traduction de la seconde application comporte un dictionnaire de la langue L2 vers la langue L1. Enfin, le module de synthèse vocale 34 de la première application comporte un schéma de prononciation de la langue L1 , alors que le module de synthèse vocale 34 de la seconde application comporte un schéma de prononciation de la langue L2. Dans ce mode de réalisation, deux modules peuvent être exécutés « simultanément » en se partageant le temps processeur.
Soit, les mêmes modules de traduction 32 et de synthèse vocale 34 sont utilisés pour les deux canaux. Un de ces modules est donc appelé par le module de lissage 40 avec des paramètres supplémentaires relatifs aux langues source et cible. C'est bien le module de lissage 40 qui contrôle l'appel de ces modules d'une manière séquentielle, l'exécution d'un module devant être achevée avant que le module soit appelé de nouveau pour un opération relative au même ou à l'autre canal.
En revanche l'application logicielle d'interprétation pour ce mode de réalisation comporte avantageusement deux modules de reconnaissance vocale 30, respectivement dédiés à la reconnaissance, en temps réel, du signal sonore transmis par le micro disposé à l'entrée du canal associé. En variante, le système peut comporter un autre écran permettant à l'interlocuteur de suivre et éventuellement d'intervenir dans la chaîne de traitement selon le second canal, de la langue L2 vers la langue L1.
Le système peut comporter un scanner connecté en entrée d'un module de reconnaissance optique apte à produire une phrase source à partir de la reconnaissance optique de caractères lus par le scanner.
Dans encore une autre variante, le système comporte une interface entrée/ sortie adaptée pour permettre la connexion et le fonctionnement du système d'interprétation sur un téléphone en tant que second moyen d'acquisition du son et second moyen de restitution du son. L'homme du métier comprendra que le ou chaque moyen d'acquisition et le ou chaque moyen de restitution du son peut être en liaison avec la partie de matériel du système par une connexion sans fil de manière à être utilisé à distance du système.

Claims

REVENDICATIONS
1.- Système d'interprétation du type comportant :
- au moins un moyen d'acquisition (4, 6) d'une phrase dans une langue source et au moins un moyen de restitution du son (3, 5) ;
- un moyen de reconnaissance (30) pour générer, à partir d'un signal d'entrée acquis par le moyen d'acquisition, une phrase source qui est une transcription de la phrase dans la langue source ;
- un moyen de traduction (32) pour générer une phrase cible qui est une traduction de la phrase source dans une langue cible ; et,
- un moyen de synthèse vocale (34) pour générer, à partir de la phrase cible, un signal sonore de sortie apte à être restitué par ledit moyen de restitution du son (3, 5), caractérisé en ce qu'il comporte :
- un moyen de lissage (40) apte à appeler séquentiellement lesdits moyens de reconnaissance (30), de traduction (32) et de synthèse vocale (34) pour produire une interprétation dans la langue cible de la phrase dans la langue source.
2.- Système selon la revendication 1 , caractérisé en ce que ledit moyen de lissage (40) comporte des moyens de communication permettant un échange de messages entre lesdits moyens de reconnaissance (30), de traduction (32) et de synthèse vocale (34), d'une part, et ledit moyen de lissage (40), d'autre part.
3.- Système selon la revendication 2, caractérisé en ce que les moyens de communication comportent une file d'attente associée en entrée de chacun des moyens de reconnaissance (30), de traduction (32), de synthèse vocale (34), et de lissage (40).
4.- Système selon la revendication 2 ou la revendication 3, caractérisé en ce qu'un message comporte une requête et un argument.
5.- Système selon l'une quelconque des revendications précédentes, caractérisé en ce que ledit moyen de traduction (32) comporte un dictionnaire de la langue source vers la langue cible.
6- Système selon l'une quelconque des revendications précédentes, caractérisé en ce que ledit moyen de synthèse vocale (34) comporte un dictionnaire phonétique associant la graphie d'un mot à une suite de phonèmes et un ensemble de règles de prononciation des phonèmes de la langue cible pour produire ledit signal sonore de sortie.
7.- Système selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ledit moyen d'acquisition est un moyen d'acquisition optique et ledit moyen de reconnaissance est un moyen de reconnaissance optique apte à produire la phrase source à partir d'une phrase écrite dans la langue source acquise par ledit moyen d'acquisition optique.
8.- Système selon l'une quelconque des revendications 1 à 6, caractérisé en ce que ledit moyen d'acquisition est un moyen d'acquisition du son (4, 6) et ledit moyen de reconnaissance est un moyen de reconnaissance vocale (30) apte à produire la phrase source à partir d'une phrase prononcée dans la langue source acquise par ledit moyen d'acquisition du son.
9.- Système selon la revendication 8, caractérisé en ce que ledit moyen de reconnaissance vocale (30) comporte :
- un moyen d'identification de phonèmes permettant de décomposer le signal sonore d'entrée en une suite de phonèmes ;
- un moyen de regroupement apte à grouper des phonèmes entre eux pour former une suite de groupes de phonèmes à partir de la suite de phonèmes ; et,
- un moyen de transcription apte à associer à un groupe de phonèmes une graphie d'un mot, de manière à produire une phrase source à partir de la suite de groupes de phonèmes, ledit moyen de transcription comportant un répertoire de la langue source associant à un groupe de phonèmes un groupe de graphies de mots et une série de règles permettant de sélectionner une graphie particulière parmi le groupe de graphies de mots.
10.- Système selon la revendication 8 ou la revendication 9, caractérisé en ce qu'il permet une interprétation bidirectionnel, le système étant apte à produire, selon un premier canal, une interprétation en une seconde langue cible d'un discours en une première langue source, et à produire, selon un second canal, une interprétation en une seconde langue cible d'un discours en une seconde langue source, les première langue source et seconde langue cible, d'une part, et les seconde langue source et première langue cible, d'autre part, étant identiques, ledit système comportant, en outre, un premier moyen d'acquisition du son (4) et un premier moyen de restitution du son (3), et un second moyen d'acquisition du son (6) et un second moyen de restitution du son (5).
11.- Système selon la revendication 10, caractérisé en ce qu'il comporte un premier moyen de reconnaissance vocale spécifique à la première langue source et un second moyen de reconnaissance vocale spécifique à la seconde langue source, les moyens de traduction et de synthèse vocale fonctionnant pour l'un ou l'autre des premier et second canaux.
12.- Système selon la revendication 10, caractérisé en ce qu'il comporte un premier moyen de reconnaissance vocale, un premier moyen de traduction et un premier moyen de synthèse vocale spécifiques audit premier canal et un second moyen de reconnaissance vocale, un second moyen de traduction et un second moyen de synthèse vocale spécifiques audit second canal d'interprétation.
PCT/FR2008/052077 2007-11-19 2008-11-18 Systeme d'interpretation simultanee automatique WO2009071795A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010533647A JP2011504624A (ja) 2007-11-19 2008-11-18 自動同時通訳システム
EP08856853A EP2215626A1 (fr) 2007-11-19 2008-11-18 Systeme d'interpretation simultanee automatique
US12/742,298 US8606560B2 (en) 2007-11-19 2008-11-18 Automatic simultaneous interpertation system
CN200880116632A CN101861621A (zh) 2007-11-19 2008-11-18 自动同步解释系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0759159A FR2923928B1 (fr) 2007-11-19 2007-11-19 Systeme d'interpretation simultanee automatique.
FR0759159 2007-11-19

Publications (1)

Publication Number Publication Date
WO2009071795A1 true WO2009071795A1 (fr) 2009-06-11

Family

ID=39666053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2008/052077 WO2009071795A1 (fr) 2007-11-19 2008-11-18 Systeme d'interpretation simultanee automatique

Country Status (6)

Country Link
US (1) US8606560B2 (fr)
EP (1) EP2215626A1 (fr)
JP (1) JP2011504624A (fr)
CN (1) CN101861621A (fr)
FR (1) FR2923928B1 (fr)
WO (1) WO2009071795A1 (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
US10107893B2 (en) * 2011-08-05 2018-10-23 TrackThings LLC Apparatus and method to automatically set a master-slave monitoring system
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
KR20150105075A (ko) * 2014-03-07 2015-09-16 한국전자통신연구원 자동 통역 장치 및 방법
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
CN106506020A (zh) * 2016-12-28 2017-03-15 天津恒达文博科技有限公司 一种双向无线同声传译议员机
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
CN108177785A (zh) * 2017-12-07 2018-06-19 中国航空工业集团公司西安航空计算技术研究所 一种基于状态机的螺旋桨自动顺桨控制方法
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
US11810547B2 (en) * 2021-04-08 2023-11-07 Sap Se Machine learning for intelligent dictation of analysis of multidimensional objects

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021796A2 (fr) * 2001-08-31 2003-03-13 Philip Bravin Systeme de communications a modes multiples
WO2003052624A1 (fr) * 2001-12-17 2003-06-26 Neville Jayaratne Traducteur en temps reel et procede de traduction en temps reel d'une pluralite de langues en langage parle
FR2851352A1 (fr) * 2003-02-18 2004-08-20 France Telecom Systeme de conversion d'un signal audio continu en un signal audiot traduit et synthetise

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4042360B2 (ja) * 2001-07-18 2008-02-06 日本電気株式会社 自動通訳システム及びその方法並びにプログラム
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
KR100859532B1 (ko) * 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021796A2 (fr) * 2001-08-31 2003-03-13 Philip Bravin Systeme de communications a modes multiples
WO2003052624A1 (fr) * 2001-12-17 2003-06-26 Neville Jayaratne Traducteur en temps reel et procede de traduction en temps reel d'une pluralite de langues en langage parle
FR2851352A1 (fr) * 2003-02-18 2004-08-20 France Telecom Systeme de conversion d'un signal audio continu en un signal audiot traduit et synthetise

Also Published As

Publication number Publication date
FR2923928A1 (fr) 2009-05-22
JP2011504624A (ja) 2011-02-10
EP2215626A1 (fr) 2010-08-11
FR2923928B1 (fr) 2009-12-04
CN101861621A (zh) 2010-10-13
US8606560B2 (en) 2013-12-10
US20100256972A1 (en) 2010-10-07

Similar Documents

Publication Publication Date Title
WO2009071795A1 (fr) Systeme d'interpretation simultanee automatique
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
JP6463825B2 (ja) 多重話者音声認識修正システム
EP3053162B1 (fr) Procede de dialogue entre une machine, telle qu'un robot humanoïde, et un interlocuteur humain, produit programme d'ordinateur et robot humanoïde pour la mise en oeuvre d'un tel procede
US8027836B2 (en) Phonetic decoding and concatentive speech synthesis
FR2906056A1 (fr) Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur.
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
TW201214413A (en) Modification of speech quality in conversations over voice channels
WO2001095087A1 (fr) Systeme de commande vocale d'une page stockee sur un serveur et telechargeable en vue de sa visualisation sur un dispositif client
EP1285435B1 (fr) Analyse syntaxique et semantique de commandes vocales
CN113724690B (zh) Ppg特征的输出方法、目标音频的输出方法及装置
FR3058253B1 (fr) Procede de traitement de donnees audio issues d'un echange vocal, systeme et programme d'ordinateur correspondant.
FR2642882A1 (fr) Appareil de traitement de la parole
EP1741092B1 (fr) Reconnaissance vocale par modelisation contextuelle d'unites vocales
FR3136884A1 (fr) Compression audio à très bas débit
FR3099844A1 (fr) Procédé de traitement automatisé d’un dispositif automatisé conversationnel par échange vocal en langage naturel, en particulier procédé d’adaptation du débit audio
JP2020056907A (ja) クラウド音声変換システム
CN114514576A (zh) 数据处理方法、装置和存储介质
EP1960996B1 (fr) Synthese vocale par concatenation d'untes acoustiques
FR3137520A1 (fr) Procédé de génération dynamique d’une transcription textuelle d’un flux audio diffusé en continu.
FR2749420A1 (fr) Procede et dispositif de formation d'images animees d'un interlocuteur
FR2867583A1 (fr) Correcteur semantique, syntaxique et/ou lexical et procede d'interaction vocale, support d'enregistrement et programme d'ordinateur pour sa mise en oeuvre
CN115910028A (zh) 语音合成方法、模型生成方法
FR3100367A1 (fr) Agent informatique à réponse perfectionnée à un message d’utilisateur
EP1490862A1 (fr) Procede de reconnaissance de la parole

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200880116632.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08856853

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010533647

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12742298

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2008856853

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE