WO2004059617A1 - Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application - Google Patents

Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application Download PDF

Info

Publication number
WO2004059617A1
WO2004059617A1 PCT/EP2003/051001 EP0351001W WO2004059617A1 WO 2004059617 A1 WO2004059617 A1 WO 2004059617A1 EP 0351001 W EP0351001 W EP 0351001W WO 2004059617 A1 WO2004059617 A1 WO 2004059617A1
Authority
WO
WIPO (PCT)
Prior art keywords
grammar
application
generic
model
conceptual model
Prior art date
Application number
PCT/EP2003/051001
Other languages
English (en)
Inventor
Pascal Bisson
Célestin SEDOGBO
Olivier Grisvard
Claire Laudy
Bénédicte GOUJON
Original Assignee
Thales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales filed Critical Thales
Priority to EP03799565A priority Critical patent/EP1588351A1/fr
Priority to AU2003299231A priority patent/AU2003299231A1/en
Priority to US10/541,192 priority patent/US20060089835A1/en
Publication of WO2004059617A1 publication Critical patent/WO2004059617A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a generic method for automatically producing speech recognition interfaces for an application domain and to a device for implementing this method.
  • Speech recognition interfaces are used, in particular in operator-system interaction systems, which are special cases of human-machine interfaces.
  • An interface of this type is the means by which an operator can access functions included in a system or machine. More precisely, this interface enables the operator to evaluate the state of the system through perception methods and to modify this state by means of action modalities.
  • Such an interface is generally the result of a reflection and a design work carried out beforehand on the operator-system interaction, a discipline aimed at studying the relations between a user and the system with which he interacts.
  • the interface of a system for example the human-machine interface of a computer system, must be natural, efficient, intelligent (adaptable to the context), reliable, intuitive (ie - to say easy to understand and to use), in other words the most "transparent” possible, in order to allow the user to accomplish his task without increasing his workload by activities that do not fall within his primary objective.
  • the voice interfaces are both more user-friendly and more efficient. Nevertheless, their implementation proves to be more complex than that of traditional interfaces, graphics for example, because it requires the acquisition of multiple knowledge, usually high level, and the implementation of complex treatments to exploit this knowledge to "intelligently" manage the dialogue between the operator and the system.
  • the present invention relates to a method for automating the realization of voice interfaces in the easiest possible way and the simplest possible, with a time and a development cost as small as possible.
  • the present invention also relates to a device for implementing this method, which device is simple to use and inexpensive.
  • the method according to the invention is characterized by the fact that a conceptual model of the field of application of the voice interface is captured, that a set of generic grammar rules representative of a class of applications is produced. , that the various rules of generic grammar whose constraints are satisfied, that the grammar of the domain of application considered from the exemplary generic grammar and the conceptual model are exemplified, and that we manage the operator / system interaction.
  • the device for automated production of voice interfaces according to the invention comprises means for capturing a conceptual model, derivation means, means for supplying a generic model and means for executing the specific grammar of the invention. scope of application. The present invention will be better understood on reading the detailed description of an embodiment, taken by way of nonlimiting example and illustrated by the appended drawing, in which:
  • FIG. 1 is a block diagram of the principal means implemented by the invention
  • FIG. 2 is a more detailed block diagram than that of FIG. 1, and
  • FIG. 3 is a detailed block diagram of the execution means of FIGS. 1 and 2.
  • FIG. 1 shows input means 1 making it possible to input the various data describing the conceptual model of the considered field of application and the relationships linking these data.
  • This data can be, for example, in the case of the voice command used to control an aircraft, the terminology of all the aircraft and all the functions of an aircraft, as well as their different mutual relations.
  • a set of grammar rules 2 is constructed and stored to form a generic model representing a class of applications (for the example mentioned above, this class would be that relating to the control of vehicles in general).
  • derivation means 3 From the conceptual model 1 and the generic model 2, derivation means 3 automatically calculate all the resources required to produce the desired voice interface, and deduce all of the language statements likely to be treated by this interface in the context of the application being processed.
  • the device of the invention comprises revision means 4 and explanation means 5.
  • the revision means 4 are supervised by the operator of the device or by its designer. Their role is to review the data entered by the operator using means 1, in order to correct terms contrary to the semantics of the application in question and / or to add new terms to enrich the grammar. the scope of application.
  • the explanatory means 5 make it easier to review the data entered by the operator by explaining the rules that were applied during the development of the grammar specific to the application domain.
  • the execution means 6 are responsible for automatically producing the voice interface of the considered application domain. The production method of this interface is based on the distinction between the application-dependent resources and the specific resources (ie the set of concepts constituting the conceptual model grasped by means 1 and 1). set of terms that make up the lexicon), and resources that do not depend on this application (generic resources), that is, the syntactic rules of the grammar and the whole basic lexicon, which are specific to the language used.
  • the voice interface designer must describe using input means 1 the resources specific to the application in question, that is to say the conceptual model and the lexicon of this application . It is for him to define the concepts of the application that he wishes to be able to be governed by the voice, then to verbalize these concepts.
  • This input work can be facilitated by the use of a formal model of the intended application, provided that this model exists and is available.
  • the derivation means 3 which operate entirely automatically, calculate from these specific resources and generic resources provided by the means 2 the linguistic model of the voice interface for said application.
  • This linguistic model consists of the grammar and lexicon of the sub-language dedicated to this interface.
  • the derivation means 3 also make it possible to calculate all the statements of this sub-language (that is to say its phraseology), as well as all the knowledge relating to the application and necessary for the management of the dialogue. operator system.
  • the revision means 4 then allow the operator to view all or part of the phraseology corresponding to his input work, in order to refine this phraseology by adding, deleting or modifying.
  • the means for producing explanations makes it possible to automatically identify which conceptual and lexical data entered by the operator are at the origin of a given characteristic of a statement or of a set of statements of the product sub-language.
  • execution means 6 constitute the environment which is called upon when using the voice interface produced, in order to validate this interface.
  • the execution means exploit all the data provided by the input means 1 and the derivation means 3.
  • FIG. 2 shows an exemplary embodiment of the device for implementing the method of the invention.
  • the operator has an input interface 7, such as a graphical interface, to enter the conceptual model 8 of the application in question. It also has a database 9 including the entities or concepts of the application, and a lexicon 10 of this application.
  • the conceptual model is formed of the entities of the application and their mutual associations, that is to say predicative relationships linking the concepts of the application.
  • the capture of the conceptual model is conceived as an iterative and assisted process using two main sources of knowledge, which are generic grammar 11 and basic lexicon 12.
  • One of the ways to achieve the derivation means 3 is to extend a syntactic and semantic grammar so as to allow the consideration of conceptual constraints. It is thus possible to define in this high-level formalism a generic grammar whose adaptation to the application domain is done automatically through the data entered by the operator. The derivation means thus make it possible to calculate the syntactic-semantic grammar and the lexicon specific to the field of application. Thus, as schematized in FIG. 2, from the conceptual model 8 grasped by the operator, the device deduces the linguistic model that it transmits to the derivation means 13.
  • the conceptual model is used not only to calculate the linguistic model and related sub-models (linguistic model for recognition, linguistic model for analysis and linguistic model for generation, but also for the management of the operator-system dialogue for everything related to reference to the concepts and objects of the application.
  • the revision-explanation means 14, for their revision function, are accessible via the graphic interface 7 for inputting the conceptual model of the application. They use a grammar generator 15 which calculates the grammar corresponding to the model entered and provides mechanisms for displaying all or part of the corresponding statements.
  • the grammar generator 15 includes a syntactic and semantic grammar 16 of utterance analysis, a statement generation grammar 17 and a speech recognition grammar 18.
  • the revision-explanation means 14, for their explanatory function, are based on a formal analysis of the calculation made by the derivation means 13 to identify the data which are at the origin of the characteristics of these statements. These means allow the operator to iteratively design his model while ensuring that the statements that will be produced meet his expectations.
  • FIG. 3 shows an embodiment of the execution means 6 of the voice interface.
  • These means include: a speech recognition device 19, which uses the grammar 18 derived from the linguistic model automatically;
  • an utterance analyzer 20 that uses the linguistic model provided by the derivation means 13. It verifies syntactically and semantically the accuracy of the utterances;
  • dialog processor 21 that uses the conceptual model entered by the operator, as well as the database 9 of the linguistic entities of the application, entered by the operator or automatically constructed by the application 22;
  • a utterance generator 23 which uses the utterance generation grammar 17 derived from the linguistic model automatically;
  • a device 24 for speech synthesis All the elements 19 to 21 and 23, 24 execution of the voice interface is managed in this case by a system 25 of the multi-agent type.
  • the input means make it possible to help the designer of the voice interface during the constitution of the lexicon.
  • the input means make it possible to help the designer of the voice interface during the constitution of the lexicon.
  • mechanisms are implemented to propose, for a given term (for example "movie” for the English version of the lexicon and "film” for the French version) all the inflected forms corresponding to this term (singular and plural of a common noun or conjugations of a verb, by example).
  • the designer of the lexicon has only to select from all these forms, those he wants to find in the voice interface.
  • the revision means allow the voice interface designer to validate or correct the conceptual model that has been created via the input means.
  • a first step in the review process is to visualize all or part of the phraseology that corresponds to the conceptual model.
  • PROGRAM plays the role of the subject
  • CHANNEL acts as a subject.
  • the revision means allow the voice interface designer to visualize this error, and modify the conceptual model to correct it.
  • the means of explanation have the function of identifying and describing the subset or characteristic of the conceptual model whose compilation produces the sub-grammar corresponding to a particular statement, to a language expression - a piece of utterance - particular, or to a language property - a particular expression characteristic -.
  • the user has the possibility, by selecting a statement, an expression or a property engendered by the grammar, to find and understand the subset or the characteristic of the conceptual model which is the same. 'origin.
  • the conceptual model can modify the statement, the expression or the generated property and, by reiterating the process, refine the conceptual model in order to obtain the grammar of the desired language.
  • the possibility of using the plural in the relation between the unit entity and the mission entity in the four expressions below is a function of the cardinality of this relation.
  • the means of explanation must allow the user to identify that the cardinality of the conceptual rule must be modified to obtain the grammar corresponding to the plural expressions that he wishes to include in his language.
  • One embodiment of the means of explanation consists in constructing a backtracking method on the method of compiling the grammar, which will make it possible to start from the result to find the conceptual rules that lead to this result and subsequently describe them to the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Le dispositif de production automatisée d'interfaces de reconnaissance vocale de l'invention comporte des moyens de saisie graphique (1) d'un modèle conceptuel, des moyens de dérivation (3), des moyens de fourniture d'un modèle générique (2) et des moyens (6) d'exécution de la grammaire spécifique du domaine d'application considéré.

Description

PRODUCTION AUTOMATIQUE D'INTERFACES DE RECONNAISSANCE VOCALE POUR UN DOMAINE D'APPLICATION
La présente invention se rapporte à un procédé générique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et à un dispositif de mise en œuvre de ce procédé.
Des interfaces de reconnaissance vocale sont utilisées, en particulier dans des systèmes d'interaction opérateur-système, qui sont des cas particuliers d'interfaces homme-machine. Une interface de ce type est le moyen qui permet à un opérateur d'accéder aux fonctions incluses dans un système ou une machine. Plus précisément, cette interface permet à l'opérateur d'évaluer l'état du système au travers de modalités de perception et de modifier cet état à l'aide de modalités d'action. Une telle interface est généralement le fruit d'une réflexion et d'un travail de conception menés en amont sur l'interaction opérateur-système, discipline visant à étudier les relations entre un utilisateur et le système avec lequel il interagit.
L'interface d'un système, par exemple l'interface homme-machine d'un système informatique, doit être naturelle, performante, intelligente (susceptible de s'adapter en fonction du contexte), fiable, intuitive (c'est-à- dire facile à comprendre et à utiliser), autrement dit la plus « transparente » possible, afin de permettre à l'utilisateur d'accomplir sa tâche sans accroître sa charge de travail par des activités ne relevant pas de son objectif premier.
En faisant appel à des canaux de communication qui nous sont familiers, comme la parole et le geste de désignation, les interfaces vocales sont à la fois plus conviviales et plus performantes. Néanmoins, leur mise en place s'avère être plus complexe que celle des interfaces traditionnelles, graphiques par exemple, car elle nécessite l'acquisition de connaissances multiples, généralement de haut niveau, et la mise en place de traitements complexes visant à exploiter ces connaissances pour gérer « intelligemment » le dialogue entre l'opérateur et le système.
Actuellement, les interfaces vocales sont réalisées « manuellement », c'est-à-dire qu'à chaque nouvelle interface, il faut réétudier toutes les fonctions de l'interface sans pouvoir faire appel à à une quelconque assistance ( automates par exemple) pour en faciliter la réalisation. La présente invention a pour objet un procédé permettant d'automatiser la réalisation d'interfaces vocales de la façon la plus facile possible et la plus simple possible, avec un temps et un coût de développement les plus réduits possible. La présente invention a également pour objet un dispositif de mise en œuvre de ce procédé, dispositif qui soit simple à utiliser et peu onéreux.
Le procédé conforme à l'invention est caractérisé par le fait qu'on saisit un modèle conceptuel du domaine d'application de l'interface vocale, que l'on produit un ensemble de règles de grammaire générique représentative d'une classe d'applications, que l'on exemplifie les différentes règles de grammaire générique dont les contraintes sont satisfaites, que l'on produit la grammaire du domaine d'application considéré à partir de la grammaire générique exemplifiée et du modèle conceptuel, et que l'on gère l'interaction opérateur/système. Le dispositif de production automatisée d'interfaces vocales conforme à l'invention comporte des moyens de saisie d'un modèle conceptuel, des moyens de dérivation, des moyens de fourniture d'un modèle générique et des moyens d'exécution de la grammaire spécifique du domaine d'application considéré. La présente invention sera mieux comprise à la lecture de la description détaillée d'un mode de mise en œuvre, pris à titre d'exemple non limitatif et illustré par le dessin annexé, sur lequel :
- la figure 1 est un bloc-diagramme des principaux moyens mis en œuvre par l'invention, - la figure 2 est un bloc-diagramme plus détaillé que celui de la figure 1 , et
- la figure 3 est un bloc-diagramme détaillé des moyens d'exécution des figures 1 et 2.
Sur la figure 1 , on a représenté des moyens de saisie 1 permettant de saisir les différentes données décrivant le modèle conceptuel du domaine d'application considéré et les relations reliant ces données. Ces données peuvent être, par exemple, dans le cas de la commande vocale utilisée pour le pilotage d'un avion, la terminologie de tous les appareils et de toutes les fonctions d'un avion, ainsi que leurs différentes relations mutuelles. Par ailleurs, on construit et on mémorise un ensemble 2 de règles de grammaire pour former un modèle générique représentant une classe d'applications (pour l'exemple précédemment cité, cette classe serait celle se rapportant à la commande des véhicules en général). A partir du modèle conceptuel 1 et du modèle générique 2, des moyens de dérivation 3 calculent de façon automatique l'ensemble des ressources nécessaires à la production de l'interface vocale désirée, et en déduisent l'ensemble des énoncés de langage susceptibles d'être traités par cette interface dans le contexte de l'application traitée. En outre, le dispositif de l'invention comporte des moyens de révision 4 et des moyens d'explication 5. Les moyens de révision 4 sont supervisés par l'opérateur du dispositif ou par son concepteur. Ils ont pour rôle de réviser les données saisies par l'opérateur à l'aide des moyens 1 , dans le but de corriger des termes contraires à la sémantique de l'application considérée et/ou d'ajouter de nouveaux termes pour enrichir la grammaire du domaine d'application. Les moyens d'explication 5 permettent de faciliter la révision des données saisies par l'opérateur en exposant les règles qui ont été appliquées lors de l'élaboration de la grammaire spécifique du domaine d'application. Les moyens d'exécution 6 sont chargés de produire automatiquement l'interface vocale du domaine d'application considéré. Le procédé de production de cette interface repose sur la distinction entre les ressources qui dépendent de l'application et sont des ressources spécifiques (c'est-à-dire l'ensemble des concepts constituant le modèle conceptuel saisi par les moyens 1 et l'ensemble des termes constituant le lexique), et les ressources qui ne dépendent pas de cette application (ressources génériques), à savoir les règles syntaxiques de la grammaire et l'ensemble du lexique de base, qui sont propres à la langue utilisée.
Pour mettre en œuvre ce procédé, le concepteur de l'interface vocale doit décrire à l'aide des moyens de saisie 1 les ressources spécifiques à l'application considérée, c'est-à-dire le modèle conceptuel et le lexique de cette application. Il s'agit pour lui de définir les concepts de l'application qu'il souhaite pouvoir être régis par la voix, puis de verbaliser ces concepts. Ce travail de saisie peut être facilité par l'utilisation d'un modèle formel de l'application envisagée, sous réserve que ce modèle existe et soit disponible.
Lorsque les ressources spécifiques à l'application sont ainsi acquises, les moyens de dérivation 3, qui fonctionnent de manière entièrement automatique, calculent à partir de ces ressources spécifiques et des ressources génériques fournies par les moyens 2 le modèle linguistique de l'interface vocale pour ladite application. Ce modèle linguistique se compose de la grammaire et du lexique du sous-langage dédié à cette interface. Les moyens de dérivation 3 permettent également de calculer l'ensemble des énoncés de ce sous-langage (c'est-à-dire sa phraséologie), ainsi que l'ensemble des connaissances relatives à l'application et nécessaires à la gestion du dialogue opérateur-système.
Les moyens de révision 4 permettent ensuite à l'opérateur de visualiser tout ou partie de la phraséologie correspondant à son travail de saisie, afin de pouvoir affiner cette phraséologie par ajout, suppression ou modification. Afin d'aider l'opérateur dans cette tâche, les moyens 5 de production d'explications permettent de repérer automatiquement quelles données conceptuelles et lexicales saisies par l'opérateur sont à l'origine d'une caractéristique donnée d'un énoncé ou d'un ensemble d'énoncés du sous-langage produit.
Enfin, les moyens d'exécution 6 constituent l'environnement auquel il est fait appel lors de l'utilisation de l'interface vocale produite, afin de valider cette interface. A cet effet, les moyens d'exécution exploitent l'ensemble des données fournies par les moyens de saisie 1 et les moyens de dérivation 3.
On a représenté en figure 2 un exemple de réalisation du dispositif de mise en œuvre du procédé de l'invention. L'opérateur dispose d'une interface de saisie 7, telle qu'une interface graphique, pour saisir le modèle conceptuel 8 de l'application considérée. Il dispose par ailleurs d'une base de données 9 comprenant les entités ou concepts de l'application, et d'un lexique 10 de cette application. Ainsi, le modèle conceptuel est formé des entités de l'application et de leurs associations mutuelles, c'est-à-dire des relations prédicatives liant entre eux les concepts de l'application. La saisie du modèle conceptuel est conçue comme un processus itératif et assisté faisant appel à deux sources de connaissance principales, qui sont la grammaire générique 11 et le lexique de base 12.
L'une des façons de réaliser les moyens de dérivation 3 consiste à étendre une grammaire syntaxique et sémantique de manière à autoriser la prise en compte de contraintes conceptuelles. Il est ainsi possible de définir dans ce formalisme de haut niveau une grammaire générique dont l'adaptation au domaine d'application s'effectue de façon automatique au travers des données saisies par l'opérateur. Les moyens de dérivation permettent ainsi de calculer la grammaire syntaxico-sémantique et le lexique propres au domaine d'application. Ainsi, comme schématisé en figure 2, à partir du modèle conceptuel 8 saisi par l'opérateur, le dispositif déduit le modèle linguistique qu'il transmet aux moyens de dérivation 13. Il faut noter ici que le modèle conceptuel est utilisé non seulement pour calculer le modèle linguistique et les sous-modèles qui lui sont liés (modèle linguistique pour la reconnaissance , modèle linguistique pour l'analyse et modèle linguistique pour la génération, mais sert également à la gestion du dialogue opérateur- système pour tout ce qui relève de la référence aux concepts et aux objets de l'application.
Les moyens de révision- explication 14, pour leur fonction de révision, sont accessibles via l'interface graphique 7 de saisie du modèle conceptuel de l'application. Ils font appel à un générateur de grammaire 15 qui calcule la grammaire correspondant au modèle saisi et offre des mécanismes pour afficher tout ou partie des énoncés correspondants. A cet effet, le générateur de grammaire 15 comprend une grammaire 16 syntaxique et sémantique d'analyse d'énoncés, une grammaire 17 de génération d'énoncés et une grammaire 18 de reconnaissance vocale.
Les moyens de révision-explication 14, pour leur fonction d'explication, se basent sur une analyse formelle du calcul effectué par les moyens de dérivation 13 pour identifier les données qui sont à l'origine des caractéristiques de ces énoncés. Ces moyens permettent à l'opérateur de concevoir de façon itérative son modèle tout en s'assurant que les énoncés qui seront produits répondent bien à ses attentes.
On a détaillé en figure 3 un exemple de réalisation des moyens d'exécution 6 de l'interface vocale. Ces moyens comportent : - un dispositif 19 de reconnaissance de parole, qui utilise la grammaire 18 dérivée du modèle linguistique de manière automatique ;
- un analyseur d'énoncés 20 qui utilise le modèle linguistique fourni par les moyens de dérivation 13. Il vérifie syntaxiquement et sémantiquement l'exactitude des énoncés ;
- un processeur de dialogue 21 qui utilise le modèle conceptuel saisi par l'opérateur, ainsi que la base de données 9 des entités linguistiques de l'application, saisie par l'opérateur ou construite automatiquement par l'application 22 ;
- un générateur d'énoncés 23, qui utilise la grammaire de génération d'énoncés 17 dérivée du modèle linguistique de manière automatique ;
- un dispositif 24 de synthèse de parole. L'ensemble des éléments 19 à 21 et 23, 24 d'exécution de l'interface vocale est géré dans le cas présent par un système 25 de type multi-agents.
On va maintenant expliquer la mise en œuvre des moyens de saisie, des moyens de révision et des moyens d'explication à l'aide d'un exemple très simple.
A) Moyens de saisie
Si l'on souhaite rendre accessibles à la voix les concepts de chaîne de télévision (CHANNEL), programme télévisé (PROGRAMME), film
(MOVIE), dessin animé (CARTOON), ainsi que le fait qu'une chaîne de télévision diffuse (PLAY) des programmes télévisés, il faut d'abord utiliser les moyens de saisie pour décrire le lexique, se rapportant à des concepts, que l'on souhaite prendre en compte. Dans un premier temps, les moyens de saisie permettent d'aider le concepteur de l'interface vocale lors de la constitution du lexique. Pour cela, des mécanismes sont mis en œuvre afin de proposer, pour un terme donné (par exemple « movie » pour la version anglaise du lexique et « film » pour la version française) l'ensemble des formes fléchies correspondant à ce terme (singulier et pluriel d'un nom commun ou conjugaisons d'un verbe, par exemple). Le concepteur du lexique n'a donc qu'à sélectionner parmi toutes ces formes, celles qu'il souhaite retrouver dans l'interface vocale.
Les concepts qui doivent être accessibles à la voix sont ensuite créés via ces mêmes moyens de saisie. Il s'agit dans le cas présent de créer des entités CHANNEL, PROGRAMME, MOVIE et CARTOON et une relation PLAY. Ces concepts sont reliés à un ensemble de termes du lexique. Ainsi, le concept MOVIE sera relié aux termes « movie », « movies », « film » et « films ». Ces liens permettront de créer un certain nombre de clauses utilisées par les moyens de dérivation : • entity ([CARTOON, [cartoon]])
• entity ([MOVIE, [movie]])
• entity ([PROGRAMME, [programme]])
• entity ([CHANNEL, [channel 5, cnn]])
• ... etc Dans le cas de la relation PLAY, il faut expliciter les acteurs de cette relation : la chaîne télévisée et le programme. Ceci donne lieu à un autre type de clauses à destination des moyens de dérivation :
• functional_structure ([PLAY, Subject (CHANNEL), DirectObject (PROGRAMME), [play]]). Les moyens de saisie permettent ensuite d'expliciter un certain nombre de relations supplémentaires entre ces concepts. Par exemple, un film est un type de programme télévisé. Ces relations auront comme conséquence de créer d'autres clauses utilisées par les moyens de dérivation : • is_a (MOVIE, PROGRAMME)
• ... etc.
La mise en place de ces moyens de saisie permet avant tout de faciliter la saisie des ressources spécifiques nécessaires à la mise en œuvre de l'interface vocale. En effet, cette saisie s'effectue en grande partie grâce à la sélection de certains critères parmi un ensemble de critères proposés via une interface graphique. Le fichier de ressources (clauses) nécessaire aux moyens de dérivation est généré automatiquement à partir de cette représentation graphique de l'ensemble des critères choisis. Ceci permet au concepteur de l'interface vocale de ne pas faire d'erreur de syntaxe dans le fichier de ressources, ni d'oubli. B) Moyens de révision
Les moyens de révision permettent au concepteur de l'interface vocale de valider ou corriger le modèle conceptuel qui a été créé via les moyens de saisie.
Une première étape du processus de révision consiste à visualiser tout ou partie de la phraséologie correspondant au modèle conceptuel.
Dans le présent exemple, on pourrait visualiser les phrases suivantes :
1) Un film
2) Un dessin animé
3) Un film diffuse Channel 5 4) ... etc La phrase « Un film diffuse Channel 5 » est incorrecte. Les moyens d'explication permettent de voir que cette erreur vient du fait que la relation PLAY a été mal définie :
• functional_structure ([PLAY, Subject (PROGRAMME), DirectObject (CHANNEL), [play]]). PROGRAMME joue le rôle du sujet
Au lieu de :
• functional_structure (PLAY, Subject (CHANNEL), DirectObject (PROGRAMME), [play]]).
CHANNEL joue le rôle de sujet Les moyens de révision permettent au concepteur de l'interface vocale de visualiser cette erreur, et de modifier le modèle conceptuel de façon à la corriger.
C) Moyens d'explication
Les moyens d'explication ont pour fonction d'identifier et de décrire le sous-ensemble ou la caractéristique du modèle conceptuel dont la compilation produit la sous-grammaire correspondant à un énoncé particulier, à une expression langagière - un morceau d'énoncé - particulière, ou à une propriété langagière - une caractéristique d'expression - particulière.
Ainsi, grâce aux moyens d'explication, l'utilisateur a la possibilité, en sélectionnant un énoncé, une expression ou une propriété engendrée par la grammaire, de retrouver et de comprendre le sous-ensemble ou la caractéristique du modèle conceptuel qui en est l'origine.
Dès lors, il peut modifier le modèle conceptuel pour modifier l'énoncé, l'expression ou la propriété engendrée et, en réitérant le processus, affiner le modèle conceptuel afin d'obtenir la grammaire du langage souhaité. A titre d'exemple, la possibilité d'utiliser le pluriel dans la relation entre l'entité unité et l'entité mission dans les quatre expressions ci-dessous est fonction de la cardinalité de cette relation.
1. « la mission de l'unité »
2. « les missions de l'unité » 3. « la mission des unités »
4. « les missions des unités »
La relation en question est décrite par la règle conceptuelle suivante :
entité (unité, relation (mission, X, Y))
Si X = 1 et Y = 1 , seule l'expression 1. est autorisée par la grammaire. Si X = 1 et Y = n, seules les expressions 1. et 2. sont autorisées par la grammaire. Si X = n et Y = 1 , seules les expressions 1. et 3. sont autorisées par la grammaire. Enfin, si X = n et Y = n, toutes les expressions sont autorisées par la grammaire (n > 2).
Dans cet exemple, les moyens d'explication doivent permettre à l'utilisateur d'identifier qu'il faut modifier la cardinalité de la règle conceptuelle pour obtenir la grammaire correspondant aux expressions plurielles qu'il souhaite inclure dans son langage.
Un mode de réalisation des moyens d'explication consiste à construire un procédé d'analyse en arrière (« backtracking » en anglais) sur le procédé de compilation de la grammaire, qui va permettre de partir du résultat pour retrouver les règles conceptuelles qui aboutissent à ce résultat et par la suite de les décrire à l'utilisateur.

Claims

REVENDICATIONS
1. Procédé générique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application, caractérisé par le fait qu'on saisit (1, 7) un modèle conceptuel du domaine d'application de l'interface vocale, que l'on produit un ensemble de règles de grammaire générique (11 ) représentative d'une classe d'applications, que l'on exemplifie les différentes règles de grammaire générique dont les contraintes sont satisfaites, que l'on produit la grammaire du domaine d'application considéré (6) à partir de la grammaire générique exemplifiée et du modèle conceptuel (13) et que l'on gère l'interaction opérateur-système.
2. Procédé selon la revendication 1, caractérisé par le fait que l'on révise les données saisies et que l'on corrige les termes contraires à la sémantique de l'application considérée.
3. Procédé selon la revendication 1 ou 2, caractérisé par le fait que l'on révise (4) les données saisies et que l'on ajoute de nouveaux termes pour enrichir la grammaire du domaine d'application.
4. Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'on produit des explications (5) exposant les règles qui ont été appliquées lors de l'élaboration de la grammaire spécifique du domaine d'application.
5. Dispositif de production automatisée d'interfaces de reconnaissance vocale pour un domaine d'application, caractérisé par le fait qu'il comporte des moyens de saisie (1 , 7) d'un modèle conceptuel, des moyens de dérivation (3, 13), des moyens de fourniture d'un modèle générique (2, 11) et des moyens d'exécution de la grammaire spécifique du domaine d'application considéré (6, 15).
6. Dispositif selon la revendication 5, caractérisé par le fait qu'il comporte en outre des moyens de révision (4, 14).
7. Dispositif selon la revendication 5 ou 6, caractérisé par le fait qu'il comporte en outre des moyens d'explication (5, 14).
PCT/EP2003/051001 2002-12-31 2003-12-15 Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application WO2004059617A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP03799565A EP1588351A1 (fr) 2002-12-31 2003-12-15 Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application
AU2003299231A AU2003299231A1 (en) 2002-12-31 2003-12-15 Automatic production of vocal recognition interfaces for an applied field
US10/541,192 US20060089835A1 (en) 2002-12-31 2003-12-15 Automatic production of vocal recognition in interfaces for an applied field

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR02/16902 2002-12-31
FR0216902A FR2849515B1 (fr) 2002-12-31 2002-12-31 Procede generique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et dispositif de mise en oeuvre

Publications (1)

Publication Number Publication Date
WO2004059617A1 true WO2004059617A1 (fr) 2004-07-15

Family

ID=32480321

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2003/051001 WO2004059617A1 (fr) 2002-12-31 2003-12-15 Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application

Country Status (6)

Country Link
US (1) US20060089835A1 (fr)
EP (1) EP1588351A1 (fr)
CN (1) CN1745409A (fr)
AU (1) AU2003299231A1 (fr)
FR (1) FR2849515B1 (fr)
WO (1) WO2004059617A1 (fr)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862780A1 (fr) * 2003-11-25 2005-05-27 Thales Sa Procede d'elaboration d'une grammaire specifique a un domaine a partir d'une grammaire sous-specifiee
FR2864646B1 (fr) * 2003-12-24 2006-04-21 Thales Sa Procede d'augmentation d'un modele de tache pour permettre la gestion de l'interaction homme-machine
US20080201148A1 (en) * 2007-02-15 2008-08-21 Adacel, Inc. System and method for generating and using an array of dynamic grammar
CN101329868B (zh) * 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法
US8442826B2 (en) * 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
EP2680599A1 (fr) * 2012-06-29 2014-01-01 Thomson Licensing Fourniture d'un contenu multimédia personnalisé
US11100291B1 (en) 2015-03-13 2021-08-24 Soundhound, Inc. Semantic grammar extensibility within a software development framework

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0681284A2 (fr) * 1994-04-29 1995-11-08 Sun Microsystems, Inc. Interpréteur de parole muni d'un compilateur à grammaire unifiée
WO2000051016A1 (fr) * 1999-02-23 2000-08-31 Unisys Corporation Appareil de conception et de simulation de dialogues
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
US6434523B1 (en) * 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6985852B2 (en) * 2001-08-21 2006-01-10 Microsoft Corporation Method and apparatus for dynamic grammars and focused semantic parsing
FR2845174B1 (fr) * 2002-09-27 2005-04-08 Thales Sa Procede permettant de rendre l'interaction utilisateur-systeme independante de l'application et des medias d'interaction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0681284A2 (fr) * 1994-04-29 1995-11-08 Sun Microsystems, Inc. Interpréteur de parole muni d'un compilateur à grammaire unifiée
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
WO2000051016A1 (fr) * 1999-02-23 2000-08-31 Unisys Corporation Appareil de conception et de simulation de dialogues
US6434523B1 (en) * 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUZ SATURNINO: "STATE-OF-THE-ART SURVEY OF EXISTING DIALOGUE MANAGEMENT TOOLS", 24 November 1999 (1999-11-24), XP002142225, Retrieved from the Internet <URL:http://www.disc2.dk/tools/d2.7a/d27a.html> [retrieved on 20000621] *

Also Published As

Publication number Publication date
US20060089835A1 (en) 2006-04-27
EP1588351A1 (fr) 2005-10-26
CN1745409A (zh) 2006-03-08
AU2003299231A1 (en) 2004-07-22
FR2849515A1 (fr) 2004-07-02
FR2849515B1 (fr) 2007-01-26

Similar Documents

Publication Publication Date Title
US20210124562A1 (en) Conversational user interface agent development environment
Vanderdonckt Model-driven engineering of user interfaces: Promises, successes, failures, and challenges
US20140019116A1 (en) System and methods for semiautomatic generation and tuning of natural language interaction applications
WO2010009996A1 (fr) Procede de compilation de programme informatique
FR3017474A1 (fr) Saisie assistee de regles dans une base de connaissance
EP1588351A1 (fr) Production automatique d&#39;interfaces de reconnaissance vocale pour un domaine d&#39;application
CA2020505C (fr) Procede d&#39;assistance pour l&#39;utilisateur d&#39;un systeme informatique et dispositif pour la mise en oeuvre dudit procede
EP3248111A1 (fr) Procédé de lemmatisation, dispositif et programme correspondant
WO2011098677A1 (fr) Systeme et un procede de gestion et de compilation d&#39;un cadre d&#39;applications de developpement logiciel.
WO2010119208A1 (fr) Procede d&#39;assistance au developpement ou a l&#39;utilisation d&#39;un systeme complexe
EP3729273B1 (fr) Systeme et procede d&#39;elaboration et d&#39;execution de tests fonctionnels pour grappe de serveurs
EP1280074A1 (fr) Utilisation d&#39;hyperliens dans un programme d&#39;une application d&#39;automatisme et station de programmation d&#39;une telle application
EP3195113B1 (fr) Procédé de vérification de traçabilité de premières instructions en un langage de programmation procédurale générées à partir de secondes instructions en un langage de modélisation
EP1713243A1 (fr) Procédé et système de génération automatique de composants logiciels pour la conception de services vocaux
EP1764684A1 (fr) Structure de données et procedé de création d&#39;une documentation de logiciel
Becker et al. D5. 3: In-car showcase based on talk libraries
US20190073360A1 (en) Query-based granularity selection for partitioning recordings
FR3115624A1 (fr) Procede d’annotation de donnees d’entrainement
FR2644608A1 (fr) Procede et appareil dans le domaine des systemes experts
WO2020079109A1 (fr) Dispositif de traitement automatique de texte par ordinateur
FR3024566A1 (fr) Procede de verification de tracabilite de premieres instructions en un langage de programmation procedurale generees a partir de secondes instructions en un langage de modelisation
FR2975202A1 (fr) Dispositif d&#39;elaboration d&#39;une definition d&#39;une version d&#39;un produit
FR2852125A1 (fr) Systeme et procede de modelisation d&#39;un projet informatique
SOMÉ Use Case Editor (UCEd) User Guide Version 1.6. 0
EP2738693A1 (fr) Procédé d&#39;enregistrement de données hiérarchisées

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
ENP Entry into the national phase

Ref document number: 2006089835

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2003799565

Country of ref document: EP

Ref document number: 10541192

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20038A93874

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003799565

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10541192

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Ref document number: JP

WWW Wipo information: withdrawn in national office

Ref document number: 2003799565

Country of ref document: EP