WO2007088299A1 - Mesure de confiance associee a une hypothese de reconnaissance vocale automatique - Google Patents

Mesure de confiance associee a une hypothese de reconnaissance vocale automatique Download PDF

Info

Publication number
WO2007088299A1
WO2007088299A1 PCT/FR2007/050698 FR2007050698W WO2007088299A1 WO 2007088299 A1 WO2007088299 A1 WO 2007088299A1 FR 2007050698 W FR2007050698 W FR 2007050698W WO 2007088299 A1 WO2007088299 A1 WO 2007088299A1
Authority
WO
WIPO (PCT)
Prior art keywords
hypothesis
acceptance
competition
similarity
confidence measure
Prior art date
Application number
PCT/FR2007/050698
Other languages
English (en)
Inventor
Delphine Charlet
Denis Jouvet
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2007088299A1 publication Critical patent/WO2007088299A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Un module de génération d'hypothèses (MGH) génère une hypothèse d'acceptation et une hypothèse de concurrence relatives à un segment vocal prononcé par un locuteur lors d'une reconnaissance vocale automatique. Pour associer une mesure de confiance à l'hypothèse d'acceptation générée, un module d'évaluation (MEV) détermine une similarité d'hypothèses dépendant d'une distance entre les hypothèses d'acceptation et de concurrence et évalue une mesure de confiance associée à l'hypothèse d'acceptation en fonction de vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence, et de la similarité d'hypothèses déterminée.

Description

Mesure de confiance associée à une hypothèse de reconnaissance vocale automatique
La présente invention concerne la reconnaissance vocale automatique, et plus particulièrement une évaluation de la mesure de confiance associée à chaque hypothèse de réponse issue de la reconnaissance vocale.
Actuellement le fonctionnement d'un système de reconnaissance vocale est imparfait et une mesure de confiance est évaluée et associée à chaque réponse fournie par le système telle qu'une hypothèse de décodage . La mesure de confiance évaluée traduit la fiabilité de l'hypothèse de décodage.
La pertinence de la mesure de confiance évaluée permet d'adapter l'application de service vocal, et d'exploiter la valeur de la mesure de confiance afin, par exemple, de rejeter ou valider une hypothèse de reconnaissance proposée par le système. D'autres utilisations de la mesure de confiance sont possibles comme mentionné dans l'article de Hui Jiang intitulé "Confidence measures for speech récognition : A survey", Speech Communication, volume 45, issue 4, avril 2005, pages 455-470.
Généralement, les mesures de confiance évaluées dépendent d'un rapport de vraisemblance entre deux hypothèses de décodage pour une observation d'un segment vocal prononcé par un locuteur. L'une des hypothèses est une hypothèse de mot reconnu ou d'acceptation et l'autre hypothèse est une hypothèse de concurrence, par exemple une hypothèse d'un autre mot ou un modèle générique de rejet.
L'article de BOUWMAN et BOVES, intitulé "Utterance Vérification based on the Likelihood Distance to Alternative Paths", Proceedings of the 5th International Conférence on Text, Speech and Dialogue, 2002, divulgue une méthode de vérification d'une meilleure hypothèse de mot reconnu issue d'une reconnaissance vocale en fonction de distances de vraisemblance entre la meilleure hypothèse et une hypothèse de concurrence. Une distance entre deux hypothèses dépend des vraisemblances des deux hypothèses et donc du segment vocal prononcé par un locuteur, et représente une différence entre des scores attribués aux vraisemblances des deux hypothèses .
L'évaluation de la mesure de confiance dans les systèmes de reconnaissance vocale actuels a pour inconvénients d'être basée sur un rapport de vraisemblance de l'observation du segment vocal par rapport à chacune des hypothèses d'acceptation et de concurrence et ne pas tenir compte de la proximité intrinsèque des hypothèses d'acceptation et de concurrence, c'est-à-dire la similarité existant entre ces hypothèses indépendamment de l'observation du segment vocal.
En effet, lorsqu'un modèle servant à la détermination de l'hypothèse de concurrence correspond à des boucles de phonèmes, l'hypothèse de concurrence peut proposer une séquence de phonèmes très proche de la séquence de phonèmes proposée par l'hypothèse d'acceptation, ce qui devrait renforcer la confiance dans l'hypothèse d'acceptation.
L'invention vise à améliorer la pertinence de la mesure de confiance évaluée pour une détection plus précise de mots prononcés par un locuteur. A cette fin, un procédé pour associer une mesure de confiance à une hypothèse d'acceptation générée pour un segment vocal prononcé par un locuteur lors d'une reconnaissance vocale automatique, comprenant une génération d'une hypothèse de concurrence pour le segment vocal et une détermination de vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence, caractérisé en ce qu'il comprend : une détermination d'une similarité d'hypothèses dépendant d'une distance entre les hypothèses d'acceptation et de concurrence indépendante desdites vraisemblances, et une évaluation de la mesure de confiance en fonction de la similarité d'hypothèses déterminée et des vraisemblances déterminées.
La mesure de confiance peut-être ensuite utilisée par exemple pour valider l'hypothèse d'acceptation si la mesure de confiance évaluée est supérieure à un seuil prédéterminé.
La similarité déterminée introduit la proximité intrinsèque entre l'hypothèse d'acceptation et l'hypothèse de concurrence dans l'évaluation de mesure de confiance ce qui contribue à rendre plus précise la mesure de confiance associée à la reconnaissance de mots prononcés par un locuteur. Par conséquent, l'évaluation de la mesure de confiance selon l'invention réduit des taux d'erreur relatifs à des acceptations d'hypothèses incorrectes et à des rejets d'hypothèses correctes.
Par ailleurs, l'évaluation de la mesure de confiance selon l'invention est applicable à tous les types d'hypothèses qui sont par exemple représentées par des séquences de phonèmes ou par des modèles acoustiques, et pour lesquelles la similarité dépend alors d'une distance entre les séquences de phonèmes ou entre les modèles acoustiques .
En outre, la mesure de confiance associée à l'hypothèse d'acceptation peut être évaluée en fonction d'une somme pondérée par des coefficients de la similarité d'hypothèses déterminée et d'un rapport de vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence.
L'invention concerne également un dispositif pour associer une mesure de confiance à une hypothèse d'acceptation générée pour un segment vocal prononcé par un locuteur lors d'une reconnaissance vocale automatique, comprenant un moyen pour générer une hypothèse de concurrence pour le segment vocal et un moyen pour déterminer des vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence. Le dispositif est caractérisé en ce qu'il comprend :
- un moyen pour déterminer une similarité d'hypothèses dépendant d'une distance entre les hypothèses d'acceptation et de concurrence et indépendante desdites vraisemblances, et - un moyen pour évaluer la mesure de confiance en fonction de la similarité d'hypothèses déterminée et des vraisemblances déterminées.
Enfin, l'invention se rapporte à un programme d'ordinateur comportant des instructions pour la mise en œuvre d'un procédé selon l'invention lorsque lesdites instructions sont mises en œuvre par un processeur. D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, données à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels :
- la figure 1 est un bloc-diagramme schématique d'un système informatique mettant en œuvre le procédé d'évaluation de mesure de confiance selon l'invention ; et
- la figure 2 est un algorithme du procédé d'évaluation de mesure de confiance selon 1 ' invention .
En référence à la figure 1, le système informatique mettant en œuvre le procédé d'évaluation de mesure de confiance selon l'invention comprend principalement un dispositif de reconnaissance vocale DRV et un gestionnaire de dialogue GD. Dans un contexte préféré d'utilisation du dispositif de reconnaissance vocale DRV selon l'invention, un terminal d'un locuteur tel qu'un poste téléphonique ou un ordinateur personnel muni d'un modem, ou un terminal mobile, est relié à un serveur vocal téléphonique interactif en relation avec le dispositif DRV, à travers un réseau d'accès, par exemple un réseau de télécommunication cellulaire et/ou l' internet.
Le serveur vocal dispense auprès du terminal du locuteur un service vocal interactif au cours duquel le locuteur du terminal interagit et dialogue avec le serveur vocal. Par exemple, le service vocal est un service de recherche de restaurants, un service boursier, un service de réservation de billets de spectacle, ou un service d'informations sur des salles de cinéma.
Selon d'autres variantes d'application, le dispositif DRV est implémenté dans un terminal, tel qu'un poste téléphonique, un ordinateur personnel, un terminal mobile, ou un assistant numérique personnel.
Le gestionnaire de dialogue GD est par exemple incorporé partiellement ou totalement dans un serveur de gestion de dialogue pouvant être relié au dispositif de reconnaissance vocale DRV par un réseau de télécommunication. Le gestionnaire de dialogue GD interprète des mots validés par le dispositif DRV afin de former une réponse à transmettre au locuteur.
Le dispositif de reconnaissance vocale DRV comprend en relation avec l ' invention un module de génération d'hypothèses MGH, un module d'évaluation MEV, un module optionnel de décision MD et une mémoire MEM. La mémoire MEM contient des données telles que des paramètres des hypothèses d'acceptation W et de concurrence Ω.
Le module de génération d'hypothèses MGH décode un signal de parole entrant X en utilisant notamment en combinaison un modèle acoustique et un modèle de langage, afin de déduire des meilleures hypothèses de mots possibles.
Le signal de parole X est un segment vocal qui contient par exemple au moins un mot prononcé par un locuteur pendant une durée T ou bien aucun mot . La durée T est exprimée en nombre de trames ("frames" en anglais) , chaque trame correspondant à une portion du segment vocal d'une durée d'environ 10 ou 16 ms . Le nombre T est variable en fonction de la vitesse d'élocution du locuteur. Le signal X contenant le mot qui vient d'être prononcé, ou bien aucun mot, est analysé acoustiquement pour produire une observation appelée signal vocal de test observé X, composé d'une suite de T vecteurs de coefficients cepstraux.
Le signal vocal de test X est décodé à partir d'un vocabulaire prédéfini pour le service vocal.
Un décodage libre du signal vocal de test X propose une séquence de phonèmes sans contrainte sur le vocabulaire, c'est-à-dire indépendamment des mots du vocabulaire, la séquence de phonèmes proposée correspondant ou non à un ou plusieurs mots du vocabulaire . Un décodage contraint analyse le signal vocal de test X par rapport à chaque mot du vocabulaire et propose un mot ou une suite de mots du vocabulaire qui correspond le mieux au signal vocal de test X. Le mot proposé, ou la suite de mots proposée, correspond alors à une hypothèse appelée hypothèse d'acceptation W ou première hypothèse de mots reconnus.
Par la suite est déterminée une hypothèse de concurrence Ω qui est par exemple une hypothèse d'acceptation alternative, c'est-à-dire une deuxième meilleure hypothèse de mots reconnus, et qui correspond le mieux, après l'hypothèse d'acceptation W, au signal vocal de test X.
L'hypothèse de concurrence peut être en outre une hypothèse issue du décodage libre du signal vocal de test X.
Les valeurs des hypothèses sont exprimées par des probabilités conditionnelles P (X | W) et P (X | Ω) caractérisant respectivement la vraisemblance que le signal vocal de test observé X corresponde à un segment vocal représenté par l'hypothèse d'acceptation W et la vraisemblance que le signal vocal de test observé X corresponde à un segment vocal représenté par l'hypothèse de concurrence Ω. En fonction des probabilités produites est déterminée une mesure de confiance φ (W | X) qui peut être une fonction de l'expression suivante : log ((P(X I W) / P(X I Ω) ) .
La mesure de confiance dépend des vraisemblances relatives aux hypothèses d'acceptation W et de concurrence Ω. Elle exprime la confiance accordée au fait que le signal vocal de test observé X corresponde à l'hypothèse d'acceptation W. Plus la mesure de confiance φ (W | X) a une valeur élevée, plus le signal vocal de test X présente des caractéristiques compatibles avec celles de l'hypothèse d'acceptation W.
En référence à la figure 2, le procédé d'évaluation de mesure de confiance selon une réalisation préférée de l'invention comprend des étapes El à E6 exécutées automatiquement dans le dispositif de reconnaissance vocale DRV.
Initialement le dispositif de reconnaissance vocale DRV reçoit un signal de parole X qui est un segment vocal correspondant par exemple à un message vocal contenant un ou plusieurs mots prononcés par un locuteur lors du dialogue avec un service vocal. Un signal vocal de test observé X est produit suite à l'analyse acoustique du signal de parole.
A l'étape El, le module de génération d'hypothèses MGH génère une hypothèse d'acceptation W relative au segment vocal prononcé par le locuteur et détermine la vraisemblance P(X | W) du signal vocal de test observé X sur l'hypothèse d'acceptation W. A l'étape E2, le module de génération d'hypothèses MGH génère une hypothèse de concurrence Ω relative au segment vocal prononcé par le locuteur, l'hypothèse Ω étant par exemple une hypothèse d'acceptation alternative ou une hypothèse issue d'un décodage libre du signal de test X. De l'hypothèse Ω est déduite la vraisemblance P(X | Ω) du signal vocal de test observé X sur l'hypothèse de concurrence Ω . Les hypothèses d'acceptation et de concurrence générées aux étapes El et E2 peuvent être notamment représentées par des séquences de phonèmes ou par des modèles acoustiques par exemple fondés sur la modélisation statistique par des chaînes de Markov cachées HMM ("Hidden Markov Model" en anglais) .
A l'étape E3, le module d'évaluation MEV évalue une distance d(W,Ω) entre l'hypothèse d'acceptation et l'hypothèse de concurrence qui représente la proximité intrinsèque des hypothèses. La distance évaluée est d'autant plus petite que les hypothèses se ressemblent.
Dans le cas où les hypothèses d'acceptation et de concurrence sont représentées par des séquences de phonèmes, les phonèmes des hypothèses appartiennent à un espace symbolique de phonèmes auquel est associée une règle de mesure de distance par exemple basée sur des probabilités de confusion entre deux phonèmes, comme divulgué par l'article de S. PEILLON et A. FERRIEUX "Indexation vocale à vocabulaire illimité à base de décodage phonétique", XXIIèmes journées d'Etudes sur la Parole, Martigny, juin 1998. Le module d'évaluation MEV évalue alors une distance d(W,Ω) entre les séquences de phonèmes correspondant à l'hypothèse d'acceptation W et à l'hypothèse de concurrence Ω .
Dans le cas où les hypothèses d'acceptation et de concurrence sont représentées par des modèles acoustiques, les phonèmes peuvent être symbolisés par des suites de densité de probabilité dans des espaces multidimensionnels sur lesquels peut être calculée une distance caractérisant leurs dissemblances, comme divulgué par l'article de Harry PRINTZ et Peder OLSEN "Theory and Practice of Acoustic Confusability", ASR 2000, p. 77-84. Le module d'évaluation MEV évalue alors une distance d(W,Ω) entre les modèles acoustiques correspondant à l'hypothèse d'acceptation W et à l'hypothèse de concurrence Ω. Si plusieurs variantes de prononciation de mots dans le segment vocal sont possibles, celles-ci peuvent être prises en compte dans l'évaluation de la distance, par exemple en calculant une moyenne des différentes distances relatives aux variantes.
A l'étape E4, le module d'évaluation MEV détermine une similarité δ (W, Ω) entre les hypothèses d'acceptation W et de concurrence Ω dépendant de la distance évaluée d(W,Ω) . La similarité est par exemple normalisée selon la relation suivante : δ(W,Ω) = d(W,Ω) - d(W,W) , où d(W,W) n'est pas obligatoirement nulle puisque son évaluation arbitraire dépend de probabilités ; par contre la mesure de la similarité δ(W,W) est nulle. En variante, la similarité peut être confondue avec la distance évaluée entre les hypothèses d'acceptation et de concurrence, soit : δ(W,Ω) = d(W,Ω) .
A l'étape E5, le module d'évaluation MEV évalue une mesure de confiance φ (W | X) associée à l'hypothèse d'acceptation W en fonction des vraisemblances entre le signal vocal de test et les hypothèses d'acceptation et de concurrence, et de la similarité d'hypothèses déterminée. De préférence, la mesure de confiance est évaluée en fonction d'une somme pondérée par des coefficients c et a de la similarité déterminée et du rapport de vraisemblances entre le signal vocal à tester X et les hypothèses d'acceptation et de concurrence. La mesure de confiance est par exemple évaluée selon la relation suivante : φ(W I X) = a - log ———- + b x T + c x δ(W, Ω) + d x N , T P(X I Ω) où T est le nombre de trames contenues dans le signal vocal à tester X mises en correspondance avec les hypothèses d'acceptation et de concurrence, N est le nombre de phonèmes de l'hypothèse d'acceptation W, et a, b, c et d sont des coefficients numériques estimés préalablement pour minimiser un critère qui dépend d'erreurs observées sur un corpus de développement, tel qu'un taux d'égale erreur défini ci-après.
L'acceptation ou le rejet d'une hypothèse dépend par exemple de la comparaison de la mesure de confiance à un seuil prédéterminé. Dans ce cas, la fiabilité de la mesure de confiance évalué peut être évaluée selon des taux de fausse-acceptation et de faux-rejet avec des coefficients numériques a, b, c, d différents pour des séries de test de détection de mot au moyen d'un corpus de développement.
Une fausse-acceptation se produit lorsqu'une hypothèse de détection d'un mot est acceptée alors que le mot n'a pas été prononcé. Un faux-rejet se produit lorsqu'une hypothèse de détection d'un mot est rejetée alors que le mot a été prononcé. Les taux de fausse-acceptation et de faux-rejet dépendent de la valeur du seuil prédéterminé pour la mesure de confiance. Un point de fonctionnement particulier du système informatique correspondant à un taux d'égale erreur est atteint lorsque le taux de fausse-acceptation est égal au taux de faux-rejet. Plus le taux d'égale erreur est faible, plus la reconnaissance vocale est considérée comme efficace.
Des coefficients a, b, c, d sont alors sélectionnés après les séries de test et mémorisés dans la mémoire MEM du dispositif DRV pour obtenir un taux d'égale erreur optimal.
A l'étape optionnelle E6, le module de décision MD valide l'hypothèse d'acceptation si la mesure de confiance évaluée φ (W | X) est supérieure à un seuil prédéterminé SP. L'hypothèse d'acceptation W est alors automatiquement reconnue comme le message vocal prononcé par le locuteur.
Dans un exemple de simulation de détection de prénoms parmi une liste de deux cents prénoms mémorisée dans un corpus de développement, la mesure de confiance selon l'invention prenant en compte la similarité entre les hypothèses conduit à un taux d'égale erreur égal à 19,1 % alors que la mesure de confiance selon la technique antérieure conduit à un taux d'égale erreur égal au mieux à 22,7 %. Par conséquent, la mesure de confiance évaluée selon l'invention réduit les erreurs d'acceptation et de rejet d'hypothèses fournies par la reconnaissance vocale .
L'invention décrite ici concerne un procédé et un dispositif pour reconnaître automatiquement un mot prononcé par un locuteur. Selon une implémentation préférée, les étapes du procédé de l'invention sont déterminées par les instructions d'un programme d'ordinateur incorporé dans un dispositif tel que le dispositif de reconnaissance vocale DRV. Le programme comporte des instructions de programme qui, lorsque ledit programme est exécuté dans un processeur du dispositif dont le fonctionnement est alors commandé par l'exécution du programme, réalisent les étapes du procédé selon l'invention. En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en œuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implémenter le procédé selon l'invention.
Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage ou support d'enregistrement sur lequel est stocké le programme d'ordinateur selon l'invention, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore une clé USB, ou un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur. D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type internet .
Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé selon 1 ' invention .

Claims

REVENDICATIONS
1 - Procédé pour associer une mesure de confiance à une hypothèse d'acceptation générée (El) pour un segment vocal prononcé par un locuteur lors d'une reconnaissance vocale automatique, comprenant une génération (E2) d'une hypothèse de concurrence pour le segment vocal et une détermination de vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence, caractérisé en ce qu'il comprend : une détermination (E4) d'une similarité d'hypothèses dépendant d'une distance entre les hypothèses d'acceptation et de concurrence indépendante desdites vraisemblances, et une évaluation (E5) de la mesure de confiance en fonction de la similarité d'hypothèses déterminée et des vraisemblances déterminées.
2 - Procédé conforme à la revendication 1, selon lequel la mesure de confiance associée à l'hypothèse d'acceptation est évaluée en fonction d'une somme pondérée par des coefficients de la similarité d'hypothèses déterminée et d'un rapport de vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence.
3 - Procédé conforme à la revendication 1 ou 2, selon lequel les hypothèses d'acceptation et de concurrence sont représentées par des séquences de phonèmes et la similarité est dépendante d'une distance entre les séquences de phonèmes.
4 - Procédé conforme à la revendication 1 ou 2, selon lequel les hypothèses d'acceptation et de concurrence sont représentées par des modèles acoustiques et la similarité est dépendante d'une distance entre modèles acoustiques.
5 - Procédé conforme à l'une quelconque des revendications 2 à 4, selon lequel les coefficients sont estimés sur un corpus de développement pour minimiser un taux d'égale erreur.
6 - Procédé conforme à l'une quelconque des revendications 1 à 5, selon lequel l'hypothèse de concurrence (Ω) est une hypothèse d'acceptation alternative .
7 - Procédé conforme à l'une quelconque des revendications 1 à 5, selon lequel l'hypothèse de concurrence (Ω) est une hypothèse issue d'un décodage libre du segment vocal .
8 - Procédé conforme à l'une quelconque des revendications 1 à 7, selon lequel l'hypothèse d'acceptation est validée (E6) si la mesure de confiance évaluée est supérieure à un seuil prédéterminé .
9 - Dispositif pour associer une mesure de confiance à une hypothèse d'acceptation générée pour un segment vocal prononcé par un locuteur lors d'une reconnaissance vocale automatique, comprenant un moyen (MGH) pour générer une hypothèse de concurrence pour le segment vocal et un moyen (MGH) pour déterminer des vraisemblances entre le segment vocal et les hypothèses d'acceptation et de concurrence, caractérisé en ce qu'il comprend : - un moyen (MEV) pour déterminer une similarité d'hypothèses dépendant d'une distance entre les hypothèses d'acceptation et de concurrence et indépendante desdites vraisemblances, et - un moyen (MEV) pour évaluer la mesure de confiance en fonction de la similarité d'hypothèses déterminée et des vraisemblances déterminées.
10 - Programme d'ordinateur comportant des instructions pour la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 8 lorsque lesdites instructions sont exécutées par un processeur.
PCT/FR2007/050698 2006-01-31 2007-01-26 Mesure de confiance associee a une hypothese de reconnaissance vocale automatique WO2007088299A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0600888 2006-01-31
FR0600888 2006-01-31

Publications (1)

Publication Number Publication Date
WO2007088299A1 true WO2007088299A1 (fr) 2007-08-09

Family

ID=36603573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/050698 WO2007088299A1 (fr) 2006-01-31 2007-01-26 Mesure de confiance associee a une hypothese de reconnaissance vocale automatique

Country Status (1)

Country Link
WO (1) WO2007088299A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012121809A1 (fr) * 2011-03-04 2012-09-13 Qualcomm Incorporated Système et procédé de reconnaissance d'un son ambiant

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1189202A1 (fr) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Modèles de durée pour la reconnaissance de parole

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1189202A1 (fr) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Modèles de durée pour la reconnaissance de parole

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOUWMAN G, BOVES L: "Utterance verification based on the likelihood distance to alternative paths", PREPRINT OF TEXT, SPEECH AND DIALOGUE. 5TH INTERNATIONAL CONFERENCE, TSD 2002. PROCEEDINGS (LECTURE NOTES IN ARTIFICIAL INTELLIGENCE VOL.2448) 2002 SPRINGER-VERLAG, 9 September 2002 (2002-09-09), BERLIN, GERMANY, pages 213 - 220, XP002388925, Retrieved from the Internet <URL:http://lands.let.kun.nl/literature/bouwman.2002.1.pdf> [retrieved on 20060704] *
BOUWMAN G, BOVES L: "Weighting Phone Confidence Measures for Automatic Speech Recognition", PREPRINT OF COST249 WORKSHOP ON VOICE OPERATED TELECOM SERVICES, 11 May 2000 (2000-05-11), GHENT, BELGIUM, pages 59 - 62, XP002388926, Retrieved from the Internet <URL:http://lands.let.kun.nl/literature/bouwman.2000.1.pdf> [retrieved on 20060704] *
SETLUR A R ET AL: "Correcting recognition errors via discriminative utterance verification", SPOKEN LANGUAGE, 1996. ICSLP 96. PROCEEDINGS., FOURTH INTERNATIONAL CONFERENCE ON PHILADELPHIA, PA, USA 3-6 OCT. 1996, NEW YORK, NY, USA,IEEE, US, vol. 2, 3 October 1996 (1996-10-03), pages 602 - 605, XP010237868, ISBN: 0-7803-3555-4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012121809A1 (fr) * 2011-03-04 2012-09-13 Qualcomm Incorporated Système et procédé de reconnaissance d'un son ambiant
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US20200234706A1 (en) Promoting voice actions to hotwords
US20180158464A1 (en) Blind Diarization of Recorded Calls With Arbitrary Number of Speakers
EP1886304B1 (fr) Procede, dispositif et programme d&#39;ordinateur pour la reconnaissance de la parole
US9311915B2 (en) Context-based speech recognition
CA2486125C (fr) Systeme et methode d&#39;utilisation de metadonnees dans le traitement de la parole
US20090119103A1 (en) Speaker recognition system
US20120179467A1 (en) User intention based on n-best list of recognition hypotheses for utterances in a dialog
Kwon et al. Unsupervised speaker indexing using generic models
US11545133B2 (en) On-device personalization of speech synthesis for training of speech model(s)
JP2004054270A (ja) 音声認識精度を決定する方法
US20080147400A1 (en) Adapting a language model to accommodate inputs not found in a directory assistance listing
US9653066B2 (en) System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US11056113B2 (en) Conversation guidance method of speech recognition system
CN111312236A (zh) 语音识别系统的域管理方法
WO2005010867A1 (fr) Reprise uniquement audio dans un systeme de reconnaissance vocale audio-visuelle
Mengusoglu et al. Use of acoustic prior information for confidence measure in ASR applications.
WO2007088299A1 (fr) Mesure de confiance associee a une hypothese de reconnaissance vocale automatique
US11563708B1 (en) Message grouping
KR100940641B1 (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
US11632345B1 (en) Message management for communal account
Yoma et al. Bayes-based confidence measure in speech recognition
KR20100073178A (ko) 음성 인식을 위한 화자 적응 장치 및 그 방법
EP1981020A1 (fr) Procédé et système de reconnaissance automatique de la parole adaptés à la détection d&#39;énoncés hors-domaine
Van Heerden et al. The semi-automated creation of stratified speech corpora

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07731526

Country of ref document: EP

Kind code of ref document: A1