WO2003054855A1 - Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede - Google Patents

Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede Download PDF

Info

Publication number
WO2003054855A1
WO2003054855A1 PCT/FR2002/004315 FR0204315W WO03054855A1 WO 2003054855 A1 WO2003054855 A1 WO 2003054855A1 FR 0204315 W FR0204315 W FR 0204315W WO 03054855 A1 WO03054855 A1 WO 03054855A1
Authority
WO
WIPO (PCT)
Prior art keywords
remote control
sound
transmitting
transfer function
code
Prior art date
Application number
PCT/FR2002/004315
Other languages
English (en)
Other versions
WO2003054855A8 (fr
Inventor
Harouna Kabre
Original Assignee
Thomson Licensing Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing Sa filed Critical Thomson Licensing Sa
Priority to AU2002364645A priority Critical patent/AU2002364645A1/en
Publication of WO2003054855A1 publication Critical patent/WO2003054855A1/fr
Publication of WO2003054855A8 publication Critical patent/WO2003054855A8/fr

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C23/00Non-electrical signal transmission systems, e.g. optical systems
    • G08C23/02Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Definitions

  • the present invention relates to a method for recognizing voice commands and executing them in a consumer electronic device.
  • FDT in short FDT is the characterization of the transformation of a physical quantity, in this case the sound undergoes modifications and / or alterations between its source (the mouth of the user) and the microphone which picks it up at the level This transfer function depends among other things on
  • this process requires the intervention of a specialist since the positioning of the source (loudspeaker) and the microphone (receiver) must be calibrated, and in any case additional equipment which is only used for adjustment and no longer during use.
  • the present invention provides a more flexible and easier means for an average user to calculate a transfer function in order to use a voice command on a consumer device.
  • the object of the present invention is a method of recognizing sound signals in a terminal composed of at least one device and a remote control, the device comprising means for receiving sound signals, characterized in that it comprises :
  • a step of calculating a sound transfer function characterizing the transformation of the sound between the remote control and the device In this way, the device automatically estimates the transfer function of an unknown operating environment. Knowing the disturbances that a sound undergoes between the location of the remote control and therefore probably the user and him, the device can improve the voice recognition rate. According to a first improvement, the remote control transmits a command code to trigger the calculation of the transfer function. In this way, the user can trigger the calculation using his remote control.
  • the device displays an indication to the user prompting him to trigger the calculation.
  • the device transmits a command code for the remote control. The code received activates the emission of the audible signal. In this way, the device automatically triggers the calculation of the transfer function.
  • the device transmits a command code for the remote control, when the voice recognition rate is below a certain threshold. Thus, the device realizing that the voice recognition is malfunctioning, will recalculate the transfer function to improve this recognition.
  • the present invention also relates to an audiovisual terminal composed of an apparatus and a remote control, the apparatus comprising a remote control interface and a means for receiving sound signals, characterized in that the remote control comprises a means for transmitting a its known to the device and picked up by a reception means, and in that the device comprises a means of calculating the transfer function of its acoustic environment.
  • the remote control includes a key making it possible to trigger a new calculation of the transfer function at the level of the device.
  • the user chooses using the keys of his remote control the sound signal to be emitted.
  • the sound signal code is sent to the device which can thus determine the starting sound signal to effectively calculate the transfer function thanks to the knowledge of the signal sent and the signal received.
  • the device which sends to the remote control a command data requesting it to emit an audible signal. According to another improvement, the device sends the control data at the end of determined usage time intervals.
  • FIG. 1 is a block diagram of a system with voice command according to an exemplary embodiment of the invention
  • FIG. 2 shows a system according to a first embodiment
  • FIG. 3 shows a system according to a second embodiment.
  • FIG. 1 shows an audiovisual multimedia terminal connected to a display device 2 such as a display screen.
  • the terminal is composed of a device 1 which can be a television receiver, a decoder or a stand-alone terminal for viewing audiovisual programs (a personal computer for example) and a remote control 10.
  • the device 1 comprises a central unit 3 connected among other things to a memory 4 containing executable programs and a rewritable memory for storing the parameters, a clock 5, an interface 9 for receiving signals emitted by the remote control 10, an audio / video decoding logic 12 (or a module software) for the creation of audiovisual signals sent to a display screen 2.
  • the remote control 10 is provided with a numeric keypad, with specific keys such as the key marked "VOICE TEST", keys intended for controlling the terminal's functions, a means of communication (preferably by infrared, or by radio, or by ultrasound, or by any other non-audible transmission channel) with device interface 9.
  • the remote control also has a speaker 11 for the emission of audible sounds.
  • the terminal also includes reception means 7 such as a tuner (TUNER according to English terminology) and a demultiplexer for receiving audiovisual broadcasts from a broadcasting network.
  • reception means 7 such as a tuner (TUNER according to English terminology) and a demultiplexer for receiving audiovisual broadcasts from a broadcasting network.
  • the terminal also includes a circuit 13 for displaying data on the screen, often called an OSD circuit, from the English “On Screen Display” (literally meaning "display on the screen”).
  • the OSD circuit 13 is a text and graphics generator which makes it possible to display menus, such as requests for the user, on the screen.
  • the OSD circuit is controlled by the Central Unit 3 in association with an executable program stored in memory 4.
  • the apparatus 1 comprises a sound pickup device 6, a microphone for example.
  • the signals received from the microphone are amplified, digitized by an analog / digital converter.
  • the data representing the sounds are analyzed by a voice recognition engine 8 produced in the form of a specialized circuit 8 of DSP type (from the English "Digital Signal Processing").
  • the motor can be produced in the form of a program recorded in the memory 4, and executed by the central unit 3.
  • FIG. 2 After having described the different elements of the invention, we will now explain how they cooperate, according to a first embodiment illustrated by FIG. 2.
  • An important aspect of the exemplary embodiment is the fact that the user who expresses commands by voice for his device, occupies approximately the same position as his remote control. Therefore, the Transfer Functions (FDT) obtained by sounds emitted by the remote control or by the user are almost the same, since the positions and the environment are identical.
  • FDT Transfer Functions
  • the user realizes that the voice recognition of his terminal no longer works optimally, he then decides to perform an FDT calculation to determine the transformation of sound between the remote control and the device.
  • User presses a key Called "TEST VOICE” the remote control 10 then transmits a command code "TEST" via the non-audible communication channel 20 to launch at the terminal a new calculation of FDT.
  • Sound data is extracted from the remote control memory, decoded and transformed by a digital / analog D / A converter into an analog electrical signal. This signal is amplified and sent to the small loudspeaker 11 placed on the front of the remote control 10.
  • the remote control emits one or more sound signals 21 for a determined period, one minute for example.
  • the loudspeaker is advantageously placed next to the infrared transmitter so that the sound signals are emitted in the same direction as the infrared signals. In this way, when the terminal receives infrared signals via channel 20, it can also correctly receive the sound signals emitted by the same remote control.
  • the sound signal emitted by the remote control through the audible channel 21 is received by the terminal using the microphone 6.
  • the microphone 6 is placed on the front face of the device.
  • the sound signal is converted into digital data by an analog / digital A / D converter and processed by the TV's processing system.
  • p is the order of the filter the larger the greater the precision. It can be noted that on certain specialized processors called "DSP", the LP method is resident in the circuit.
  • An improvement of this first embodiment consists in that the device detects a drop in the recognition rate and displays a message, for example:
  • Low recognition rate x% Such a message prompts the user to launch the test by pressing the "VOICE TEST" key.
  • the message can also be a simple icon appearing in a corner of the screen, for example: “$, or” "indicating that the device 1 has difficulty recognizing the received voice command.
  • the sound signal emitted by the remote control is always the same.
  • the remote control contains a table containing a set of pre-programmed sounds, each sound being identified by an index.
  • the user then presses the VOICE TEST key and then one of the ten keys on his numeric keypad.
  • the code of the key pressed is an index to search for the data corresponding to the sound signal emitted.
  • the remote control then transmits via the non-audible link (infrared for example), a command code "TEST" to order a new calculation of FDT and a sound identifier, which can simply be the code of the key on the numeric keypad.
  • the central unit of the terminal searches in a table of pre-recorded sounds contained in the memory 4, the data of the sound signal corresponding to the identifier received.
  • This variant allows the user better control over the duration of the test.
  • An improvement to this variant consists in that the terminal displays on the screen 2, the number corresponding to the key to be pressed and thus guides the user.
  • the various messages are generated by the OSD circuit 13.
  • the user then follows the instructions displayed.
  • the terminal requests sounds until the FDT is not fully calculated.
  • a second embodiment consists in that the terminal automatically launches the determination of a new transfer function. This determination can for example be launched when the voice interface detects a recognition rate below a certain threshold.
  • Another variant consists in launching the test at regular time intervals, for example every 10 hours of operation of the device. This second embodiment is illustrated in FIG. 3 II presents l advantage of automatically triggering an FDT calculation without the user deciding to do so
  • the reception interface 9 of the terminal and the remote control 10 communicate using a bidirectional link illustrated by the two arrows 20, 25 in FIG. 3
  • the transmission of the signals to the remote control using a non-audible channel 25 is represented by a broken arrow
  • the remote control receives a SU IVI command code of a data item corresponding to the sound signal to be emitted.
  • the data item constitutes the digital information of the sound sequence, this sound sequence being of a determined duration. This data is transformed to ugly
  • I 5 from a digital / analog converter to an analog electrical signal, which is amplified and emitted by the loudspeaker 1 1
  • the terminal receives the sound emitted using its microphone 6 and automatically calculates the FDT between the remote control and him
  • the terminal transmits a 0 identifying a pre-stored sound to the remote control which decodes it and transmits it back in an audible manner.
  • This variant is particularly advantageous because it reduces the size of the data transmitted to the remote control and therefore also the duration of the transmission
  • An improvement of the invention consists in making messages appear to guide the user during the calculation of the transfer function. At the start of the calculation, the following message appears:
  • Error messages may also be issued. For example, when the terminal receives typical audio signals from the voice test but no infrared signals. It is then necessary to ask the user to better orient his remote control.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)

Abstract

L'invention consiste en un procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérisé en ce qu'il comporte : - une étape d'émission par la télécommande d'un signal sonore, - une étape de réception au niveau de l'appareil dudit signal, - une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil. La présente invention concerne aussi un terminal audiovisuel composé d'un appareil et d'une télécommande. L'appareil comportant une interface de télécommande et un moyen de réception de signaux sonores, caractérisé en ce que la télécommande comporte un moyen d'émission d'un son connu de l'appareil et capté par un moyen de réception, et en ce que l'appareil comporte un moyen de calcul de la fonction de transfert du son dans l'environnement où se trouve l'appareil.

Description

Procédé de reconnaissance vocale et, Terminal multimédia mettant en œuvre le procédé.
5 La présente invention concerne un procédé pour reconnaître des commandes vocales et les exécuter dans un appareil électronique grand public
L'utilisation conjointe d'une télécommande manuelle et d'un moteur de reconnaissance vocale est connue en soi La demande de brevet FR98 1 1838
I O déposée par la demanderesse décrit un système dans lequel des menus sont affichés à la suite de l'appui sur des touches, ces menus présentent les commandes vocales que l'utilisateur peut prononcer pour exécuter les fonctions accessibles à ce moment
Les appareils dotés d'un équipement de reconnaissance vocale sont
15 très sensibles au bruit ambiant Si celui-ci est trop important, il peut couvrir le son de la commande vocale Pour améliorer le fonctionnement de tels équipements, on peut mettre à la disposition des utilisateurs des boutons de réglage, notamment de réglage de niveau et de qualité sonoresqui évitent au dispositif de saisie du son de saturer 0 Un autre approche consiste à calculer la « fonction de transfert », ou
FDT en abrégé La FDT est la caractérisation de la transformation d'une grandeur physique, en l'occurrence ici le son subit des modifications et/ou altérations entre sa source (la bouche de l'utilisateur) et le microphone qui le capte au niveau de l'appareil Cette fonction de transfert dépend entre autre de
25 la position du locuteur, du bruit ambiant, du niveau de réverbération du heu, etc Une manière de calculer une fonction de transfert dans une pièce (domaine domestique ou autre) consiste à effectuer les étapes suivantes
1 on place un haut parleur à une position pour jouer des sons
2 on enregistre les sons reçus à différents endroits de la pièce
30 3 on calcule la fonction de transfert grâce aux notions ordinaires de traitement de signaux
Le calcul de la FDT peut s'effectuer dans le plan Z soit X(Z) l'entrée et Y(Z) la sortie alors la fonction de transfert s'obtient par H(Z)= Y(Z)/X(Z) 35 Toutefois, ce procédé nécessite l'intervention d'un spécialiste étant donné que le positionnement de la source (haut-parleur) et du micro (récepteur) doit être calibré, et en tout état de cause un équipement supplémentaire qui ne sert en fait qu'au réglage et plus lors de l'utilisation.
La présente invention offre un moyen plus souple et plus facile pour un utilisateur moyen de calculer une fonction de transfert afin d'utiliser une commande vocale sur un appareil grand public.
L'objet de la présente invention est un procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérisé en ce qu'il comporte :
- une étape d'émission par la télécommande d'un signal sonore,
- une étape de réception au niveau de l'appareil dudit signal,
-une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil. De cette manière, l'appareil estime automatiquement la fonction de transfert d'un environnement d'utilisation inconnu. Connaissant les perturbations que subit un son entre l'endroit où se trouve la télécommande et donc probablement l'utilisateur et lui, l'appareil peut améliorer le taux de reconnaissance vocale. Selon un premier perfectionnement, la télécommande émet un code de commande pour déclencher le calcul de la fonction de transfert. De cette façon, l'utilisateur peut déclencher le calcul à l'aide de sa télécommande.
Selon un autre perfectionnement, l'appareil affiche à l'intention de l'utilisateur une indication l'incitant à déclencher le calcul. Selon un autre perfectionnement, l'appareil émet un code de commande pour la télécommande. Le code reçu active l'émission du signal sonore. De cette façon, c'est l'appareil qui déclenche automatiquement le calcul de la fonction de transfert. Selon un autre perfectionnement, l'appareil émet un code de commande pour la télécommande, lorsque le taux de reconnaissance vocale est inférieur à un certain seuil. Ainsi, l'appareil se rendant compte que la reconnaissance vocale fonctionne mal, va recalculer la fonction de transfert pour améliorer cette reconnaissance.
La présente invention concerne également un terminal audiovisuel composé d'un appareil et d'une télécommande, l'appareil comportant une interface de télécommande et un moyen de réception de signaux sonores, caractérisé en ce que la télécommande comporte un moyen d'émission d'un son connu de l'appareil et capté par un moyen de réception, et en ce que l'appareil comporte un moyen de calcul de la fonction de transfert de son environnement acoustique.
Selon un autre perfectionnement, la télécommande comporte une touche permettant de déclencher un nouveau calcul de fonction de transfert au niveau de l'appareil.
Selon un autre perfectionnement, l'utilisateur choisit à l'aide de touches de sa télécommande le signal sonore à émettre. Le code du signal sonore est envoyé à l'appareil qui peut ainsi déterminer le signal sonore de départ pour calculer efficacement la fonction de transfert grâce à la connaissance du signal émis et du signal reçu.
Selon un autre perfectionnement, c'est l'appareil qui envoie à la télécommande une donnée de commande lui demandant d'émettre un signal sonore. Selon un autre perfectionnement, l'appareil envoie la donnée de commande à la fin d'intervalles de temps d'utilisation déterminés.
L'invention, avec ses caractéristiques et avantages, ressortira plus clairement à la lecture de la description d'un exemple de réalisation particulier non limitatif fait en référence aux dessins annexés dans lesquels : - la figure 1 est un diagramme bloc d'un système à commande vocale selon un exemple de réalisation de l'invention,
- la figure 2 présente un système selon un premier mode de réalisation,
- la figure 3 présente un système selon un second mode de réalisation.
Nous allons tout d'abord décrire un exemple de terminal pour la mise en œuvre de l'invention. La figure 1 présente un terminal multimédia audiovisuel connecté à un dispositif d'affichage 2 tel qu'un écran de visualisation. Le terminal est composé d'un appareil 1 qui peut être un récepteur de télévision, un décodeur ou un terminal autonome de visualisation d'émissions audiovisuelles (un ordinateur personnel par exemple) et une télécommande 10. L'appareil 1 comprend une unité centrale 3 reliée entre autre à une mémoire 4 contenant des programmes exécutables et une mémoire réinscriptible pour le stockage des paramètres, une horloge 5, une interface de réception 9 de signaux émis par la télécommande 10, une logique de décodage audio/vidéo 12 (ou un module logiciel) pour la création des signaux audiovisuels envoyés à un écran de visualisation 2. La télécommande 10 est dotée d'un pavé numérique, de touches spécifiques telles que la touche marquée "TEST VOCAL", de touches destinées au contrôle des fonctions du terminal, d'un moyen de communication (de préférence par infra-rouge, ou par radio, ou par ultra-son, ou par tout autre canal de transmission non audible) avec l'interface 9 de l'appareil. La télécommande est également dotée d'un haut-parleur 11 pour l'émission de sons audibles.
Le terminal comprend également des moyens de réception 7 tel qu'un syntoniseur (TUNER selon la terminologie anglo-saxonne) et un démultiplexeur pour recevoir des émissions audiovisuelles d'un réseau de diffusion. Le terminal comprend également un circuit 13 d'affichage de données sur l'écran, appelé souvent circuit OSD, de l'anglais "On Screen Display" (signifiant littéralement "affichage sur l'écran"). Le circuit OSD 13 est un générateur de texte et de graphisme qui permet d'afficher à l'écran des menus, tels que des requêtes à l'intention de l'utilisateur. Le circuit OSD est contrôlé par l'Unité Centrale 3 en association avec un programme exécutable enregistré dans la mémoire 4.
L'appareil 1 comprend un dispositif de prise de son 6, un microphone par exemple. Les signaux reçus du microphone sont amplifiés, numérisés par un convertisseur analogique/numérique. Puis, les données représentant les sons sont analysés par un moteur de reconnaissance vocale 8 réalisé sous la forme d'un circuit spécialisé 8 de type DSP (de l'anglais "Digital Signal Processing"). De façon plus économique mais moins performante, le moteur peut être réalisé sous la forme d'un programme enregistré dans la mémoire 4, et exécuté par l'unité centrale 3.
Après avoir décrit les différents éléments de l'invention, nous allons maintenant expliquer comment ceux-ci coopèrent, selon un premier exemple de réalisation illustré par la figure 2.
Voici en détail les différentes étapes du procédé : Un aspect important de l'exemple de réalisation est le fait de considérer que l'utilisateur qui exprime vocalement des commandes à l'intention de son appareil, occupe approximativement la même position que sa télécommande. Donc, les Fonctions De Transfert (FDT) obtenues par des sons émis par la télécommande ou par l'utilisateur sont quasiment les mêmes, étant donné que les positions et l'environnement sont identiques.
A un certain moment, l'utilisateur se rend compte que la reconnaissance vocale de son terminal ne fonctionne plus de façon optimale, il décide alors d'effectuer un calcul de FDT pour déterminer la transformation du son entre la télécommande et l'appareil. L'utilisateur appuie sur une touche spéciale appelé « TEST VOCAL », la télécommande 10 émet alors un code de commande « TEST » via le canal de communication non audible 20 pour lancer au niveau du terminal un nouveau calcul de FDT. Une donnée de son est extraite de la mémoire de la télécommande, décodée et transformée par un convertisseur numérique/analogique N/A en un signal électrique analogique. Ce signal est amplifié et envoyé au petit haut-parleur 1 1 placé sur le devant de la télécommande 10. La télécommande émet un ou plusieurs signaux sonores 21 pendant une durée déterminée, une minute par exemple. Le haut parleur est avantageusement placé à coté de l'émetteur infra-rouge de façon à que les signaux sonores soient émis dans la même direction que les signaux infrarouges. De cette façon, lorsque le terminal reçoit des signaux infra-rouges par le canal 20, il peut aussi recevoir correctement les signaux sonores émis par la même télécommande.
Le signal sonore émis par la télécommande à travers le canal audible 21 est reçu par le terminal à l'aide du microphone 6. De préférence, le microphone 6 est placé sur la face avant de l'appareil. Le signal sonore est converti en données numériques par un convertisseur analogique/numérique A/N et traité par le système de traitement du téléviseur.
Connaissant le signai émis par la télécommande et le signal reçu par le microphone, on peut estimer la fonction de transfert, par la technique dite « Linear Prédiction » (LP) dont les bases peuvent être lues dans un document de Markhoul daté de 1975. Le calcul de FDT s'effectue à l'aide d'un programme enregistré dans la mémoire 4.
Soit un signal s(n) enregistré et émis par la télécommande, et u(n) celui reçu par le téléviseur. La méthode LP approche la FDT comme un filtre tout pôle de coefficients a(k) dans le cas simple selon l'équation ci-dessous. G est un gain et la résolution de cette équation se fait de manière efficace par la méthode de Durbin. s(n) - ^ _ a(k)s(n - k) + Gu(n) Dans la représentation en Z on obtient la formulation :
S(z) G
H(z) =
p est l'ordre du filtre d'autant plus grand qu'on veut une plus grande précision. On peut noter que sur certains processeurs spécialisés dits "DSP", la méthode LP est résidente dans le circuit. Une amélioration de ce premier mode de réalisation consiste en ce que l'appareil détecte une baisse du taux de reconnaissance et affiche un message, par exemple :
Taux de reconnaissance faible : x% Un tel message incite l'utilisateur a lancer le test en appuyant sur la touche « TEST VOCAL ». Le message peut aussi être une simple icône apparaissant dans un coin de l'écran, par exemple : « $ , ou « » indiquant que l'appareil 1 a des difficultés à reconnaître la commande vocale reçue.
De façon particulièrement simple, le signal sonore émis par la télécommande est toujours le même. Une variante de ce premier exemple de réalisation consiste en ce que la télécommande contient un tableau contenant un jeu de sons pré-programmés, chaque son étant identifié par un index. L'utilisateur appuie alors sur la touche TEST VOCAL puis sur une des dix touches de son clavier numérique. Le code de la touche enfoncée est un index pour rechercher les données correspondant au signal sonore émis. La télécommande émet alors via la liaison non audible (infra-rouge par exemple), un code de commande « TEST » pour commander un nouveau calcul de FDT et un identifiant de son, qui peut être simplement le code de la touche du pavé numérique. Suite à la réception de ce code, l'unité centrale du terminal recherche dans un tableau de sons pré-enregistrés contenu dans la mémoire 4, les données du signal sonore correspondant à l'identifiant reçu. Cette variante permet à l'utilisateur un meilleur contrôle de la durée du test.
Un perfectionnement à cette variante consiste en ce que le terminal affiche sur l'écran 2, le chiffre correspondant à la touche à enfoncer et guide ainsi l'utilisateur. Les différents messages sont générés par le circuit OSD 13. L'utilisateur suit alors les instructions affichées. Le terminal demande des sons tant que la FDT n'est pas totalement calculée.
Lorsque le terminal a fini de calculer les paramètres, il affiche sur l'écran 2 le message suivant :
Réglage de l'interface vocale effectué
Un second mode de réalisation consiste en ce que le terminal lance automatiquement la détermination d'une nouvelle fonction de transfert. Cette détermination peut par exemple être lancée lorsque l'interface vocale détecte un taux de reconnaissance inférieur à un certain seuil Une autre variante consiste à lancer le test à des intervalles de temps régulier, par exemple toutes les 10 heures de fonctionnement de l'appareil Ce second mode de réalisation est illustrée par la figure 3 II présente l'avantage de déclencher 5 automatiquement un calcul de FDT sans que l'utilisateur décide de le faire
Selon ce second mode de réalisation, l'interface de réception 9 du terminal et la télécommande 10 communiquent a l'aide d'une liaison bidirectionnelle illustrée par les deux flèches 20, 25 de la figure 3 L'émission des signaux vers la télécommande à l'aide d'un canal non audible 25 est ι o représentée par une flèche discontinue
Dans un premier temps, la télécommande reçoit un code de commande SU IVI d'une donnée correspondant au signal sonore à émettre La donnée constitue l'information numérique de la séquence sonore, cette séquence sonore étant d'une durée déterminée Cette donnée est transformée à l'aide
I 5 d'un convertisseur numérique/analogique en un signal électrique analogique, qui est amplifié et émis par le haut-parleur 1 1 Le terminal reçoit le son émis a l'aide de son microphone 6 et calcule automatiquement la FDT entre la télécommande et lui
Selon une variante de cette amélioration, le terminal transmet un 0 identifiant d'un son pré-stocké à la télécommande qui le décode et l'émet en retour de façon sonore Cette variante est particulièrement avantageuse car, elle réduit la taille des données transmises à la télécommande et donc aussi la durée de la transmission
5 Une autre variante consiste en ce que c'est l'utilisateur lui - même qui déclenche le test II le fait par exemple lorsqu'il se rend compte que le taux de reconnaissance vocale de son téléviseur diminue L'utilisateur déclenche l'émission sonore en appuyant sur la touche « TEST VOCAL» sur sa télécommande, ou sur un bouton en face avant du récepteur Le déroulement
30 du test est ensuite pris en charge par le récepteur 1 , le test utilise la communication bi-directionnelle entre le récepteur 1 et la télécommande
Les applications du présent perfectionnement sont le « Distant Talking », le traitement des réverbérations et le pré traitement du signal de 35 parole avant reconnaissance Un perfectionnement de l'invention consiste à faire apparaître des messages pour guider l'utilisateur lors du calcul de la fonction de transfert. Au début du calcul, le message suivant apparaît :
Mise au point de l'interface vocale
Pointer la télécommande vers l'appareil et NE
LA BOUGEZ PAS
Des messages d'erreur peuvent aussi être émis. Par exemple, lorsque le terminal reçoit des signaux sonores typiques du test vocal mais pas de signaux infra-rouges. Il faut alors demander à l'utilisateur de mieux orienter sa télécommande.
Les présents modes de réalisation qui viennent d'être décrits doivent être considérés à titre d'illustration mais peuvent être modifiés dans le domaine défini par la portée des revendications jointes. En particulier, l'invention ne se limite pas aux terminaux audiovisuels tels que des récepteurs de télévision mais peut s'appliquer à de nombreux dispositifs, en particulier des appareils électroniques grand public.

Claims

REVENDICATIONS
1 Procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérise en ce qu'il comporte
- une étape d'émission par la télécommande d'un signal sonore,
- une étape de réception au niveau de l'appareil dudit signal, -une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil
2 Procédé de reconnaissance selon la revendication 1 caractérisé en ce qu'il comporte au niveau de la télécommande une étape d'émission non audible d'un code de commande, la réception du code dans l'appareil activant l'étape de calcul de la fonction de transfert
3 Procédé de reconnaissance selon la revendication 2 caractérisé en ce qu'il comporte une étape d'affichage d'une indication proposant à l'utilisateur d'effectuer une commande d'émission non audible du code de commande
4 Procédé de reconnaissance selon la revendication 1 caractérisé en ce qu'il comporte une étape d'émission par l'appareil d'une donnée de commande par un canal non audible, la réception de la donnée de commande activant l'étape d'émission du signal sonore
5 Procédé de reconnaissance selon la revendication 4 caractérisé en ce que l'étape d'émission d'une donnée de commande est activée lorsque le taux de reconnaissance de son reçu au niveau de l'appareil est inférieur à un seuil déterminé
6 Procédé de reconnaissance de signaux sonores selon l'une quelconque des revendications 1 à 5, caractérisé en ce que la fonction de transfert est calculée par la technique Linear Prédiction (LP)
7 Terminal audiovisuel composé d'un appareil (1 ) et d'une télécommande (10), l'appareil comportant une interface de télécommande (9) et un moyen de réception de signaux sonores (6,8), caractérise en ce que la télécommande comporte un moyen d'émission (11 ) d'un son connu de l'appareil et capté par ledit moyen de réception (6,8), et en ce que l'appareil comporte un moyen de calcul (3,4) de la fonction de transfert (FDT) de l'environnement acoustique.
8. Terminal audiovisuel selon la revendication 7, caractérisé en ce que la télécommande (10) comporte un moyen d'émission d'un code reçu par l'interface de télécommande (9), ledit code activant le moyen de calcul (3,4) de la fonction de transfert (FDT).
9. Terminal audiovisuel selon la revendication 8, caractérisé en ce que la télécommande (10) comporte un moyen d'émission d'un code identifiant le signal sonore émis, et en ce que l'appareil recherche dans un moyen de mémorisation (4) les données du signal sonore correspondant au code reçu.
10. Terminal audiovisuel selon la revendication 7, caractérisé en ce que l'appareil (1) comporte un moyen d'émission d'une donnée de commande par un canal non audible, la réception de la donnée de commande activant le moyen d'émission (11) d'un son connu de l'appareil.
11. Terminal audiovisuel selon la revendication 10, caractérisé en ce que le moyen d'émission de la donnée de commande est activé lorsque le taux de reconnaissance de son reçu au niveau de l'appareil est inférieur à un seuil déterminé.
12. Terminal audiovisuel selon la revendication 10, caractérisé en ce que le moyen d'émission de la donnée de commande est activé par un temporisateur (5) à la fin d'une temporisation.
PCT/FR2002/004315 2001-12-17 2002-12-12 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede WO2003054855A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2002364645A AU2002364645A1 (en) 2001-12-17 2002-12-12 Voice recognition method and multimedia terminal therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR01/16275 2001-12-17
FR0116275A FR2833744A1 (fr) 2001-12-17 2001-12-17 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Publications (2)

Publication Number Publication Date
WO2003054855A1 true WO2003054855A1 (fr) 2003-07-03
WO2003054855A8 WO2003054855A8 (fr) 2003-10-16

Family

ID=8870554

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/004315 WO2003054855A1 (fr) 2001-12-17 2002-12-12 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Country Status (3)

Country Link
AU (1) AU2002364645A1 (fr)
FR (1) FR2833744A1 (fr)
WO (1) WO2003054855A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020038403A1 (fr) * 2018-08-22 2020-02-27 深圳阿凡达智控有限公司 Appareil de commande vocale

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5187741A (en) * 1990-11-30 1993-02-16 At&T Bell Laboratories Enhanced acoustic calibration procedure for a voice switched speakerphone
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
FR2783625A1 (fr) * 1998-09-21 2000-03-24 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
FR2810145A1 (fr) * 2000-06-07 2001-12-14 Sagem Dispositif mobile et emetteur de telecommande de coffret fixe recepteur de telecommande

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5187741A (en) * 1990-11-30 1993-02-16 At&T Bell Laboratories Enhanced acoustic calibration procedure for a voice switched speakerphone
FR2783625A1 (fr) * 1998-09-21 2000-03-24 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
FR2810145A1 (fr) * 2000-06-07 2001-12-14 Sagem Dispositif mobile et emetteur de telecommande de coffret fixe recepteur de telecommande

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RADLOVIC B D ET AL: "Equalization in an acoustic reverberant environment: robustness results", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, MAY 2000, IEEE, USA, vol. 8, no. 3, pages 311 - 319, XP002197487, ISSN: 1063-6676 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020038403A1 (fr) * 2018-08-22 2020-02-27 深圳阿凡达智控有限公司 Appareil de commande vocale

Also Published As

Publication number Publication date
AU2002364645A1 (en) 2003-07-09
WO2003054855A8 (fr) 2003-10-16
FR2833744A1 (fr) 2003-06-20

Similar Documents

Publication Publication Date Title
US8948895B2 (en) System and method for engaging a person in the presence of ambient audio
US8848085B2 (en) Photographing apparatus capable of communication with external apparatus and method of controlling the same
WO2009053869A2 (fr) Procédé et dispositif mobile pour la detection d'extraits
CN110390927B (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
US8588442B2 (en) Method for adjusting a hearing device
US20130276012A1 (en) Method, Apparatus and Computer Program for Triggering an Event
TWI227994B (en) Personal video message system
FR2947069A1 (fr) Procede de selection de versions d'un document parmi une pluralite de versions recues a la suite d'une recherche, et recepteur associe
WO2003054855A1 (fr) Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede
WO2005073875A1 (fr) Systeme et procede de reconnaissance de sequence sonore
WO2017158274A1 (fr) Acquisition d'extraits d'un flux multimédia sur un terminal
FR3075427A1 (fr) Assistant vocal
EP1759458B1 (fr) Procede de validation d'un nombre dans un appareil electronique et appareil electronique associe
EP1152609B1 (fr) Dispositif d'enregistrement de signaux vidéo télécommandé par un réseau de télécommunication
JP2009130644A (ja) 通信装置、通信方法、プログラム、および記憶媒体
JP2005277884A (ja) 通信端末装置
EP4348985A1 (fr) Équipement et procede de restitution de contenu audio dans le cadre d'un service numerique interactif
JP2009194619A (ja) 通信端末装置及びプログラム
FR2999043A1 (fr) Prise de son par des terminaux utilisateurs disposant d'un dispositif mobile d'interaction
FR3133964A1 (fr) Gestion perfectionnée d’un code visuel en cours d’affichage dans un contenu multimédia
WO2022096461A1 (fr) Procédé de partage de contenu et appareils correspondants
EP1188313A1 (fr) Procede de programmation d'un appareil electronique et appareil electronique associe
EP1050864A1 (fr) Système de télécommande d'appareil à liaison bidirectionnelle
FR2958436A1 (fr) Systeme de commande a distance pour appareils electroniques multimedias.
FR2988963A1 (fr) Procede et systeme de deportation de l'acces a un service interactif de television numerique d'un recepteur numerique vers un terminal annexe.

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
CFP Corrected version of a pamphlet front page
CR1 Correction of entry in section i

Free format text: IN PCT GAZETTE 27/2003 ADD "DECLARATION UNDER RULE 4.17: - OF INVENTORSHIP (RULE 4.17(IV)) FOR US ONLY."

Free format text: IN PCT GAZETTE 27/2003 ADD "DECLARATION UNDER RULE 4.17: - OF INVENTORSHIP (RULE 4.17(IV)) FOR US ONLY."

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP