WO2003054855A1

WO2003054855A1 - Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Info

Publication number: WO2003054855A1
Application number: PCT/FR2002/004315
Authority: WO
Inventors: Harouna Kabre
Original assignee: Thomson Licensing Sa
Priority date: 2001-12-17
Filing date: 2002-12-12
Publication date: 2003-07-03
Also published as: AU2002364645A1; WO2003054855A8; FR2833744A1

Abstract

L'invention consiste en un procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérisé en ce qu'il comporte : - une étape d'émission par la télécommande d'un signal sonore, - une étape de réception au niveau de l'appareil dudit signal, - une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil. La présente invention concerne aussi un terminal audiovisuel composé d'un appareil et d'une télécommande. L'appareil comportant une interface de télécommande et un moyen de réception de signaux sonores, caractérisé en ce que la télécommande comporte un moyen d'émission d'un son connu de l'appareil et capté par un moyen de réception, et en ce que l'appareil comporte un moyen de calcul de la fonction de transfert du son dans l'environnement où se trouve l'appareil.

Description

Procédé de reconnaissance vocale et, Terminal multimédia mettant en œuvre le procédé.

5 La présente invention concerne un procédé pour reconnaître des commandes vocales et les exécuter dans un appareil électronique grand public

L'utilisation conjointe d'une télécommande manuelle et d'un moteur de reconnaissance vocale est connue en soi La demande de brevet FR98 1 1838

I O déposée par la demanderesse décrit un système dans lequel des menus sont affichés à la suite de l'appui sur des touches, ces menus présentent les commandes vocales que l'utilisateur peut prononcer pour exécuter les fonctions accessibles à ce moment

Les appareils dotés d'un équipement de reconnaissance vocale sont

15 très sensibles au bruit ambiant Si celui-ci est trop important, il peut couvrir le son de la commande vocale Pour améliorer le fonctionnement de tels équipements, on peut mettre à la disposition des utilisateurs des boutons de réglage, notamment de réglage de niveau et de qualité sonoresqui évitent au dispositif de saisie du son de saturer 0 Un autre approche consiste à calculer la « fonction de transfert », ou

FDT en abrégé La FDT est la caractérisation de la transformation d'une grandeur physique, en l'occurrence ici le son subit des modifications et/ou altérations entre sa source (la bouche de l'utilisateur) et le microphone qui le capte au niveau de l'appareil Cette fonction de transfert dépend entre autre de

25 la position du locuteur, du bruit ambiant, du niveau de réverbération du heu, etc Une manière de calculer une fonction de transfert dans une pièce (domaine domestique ou autre) consiste à effectuer les étapes suivantes

1 on place un haut parleur à une position pour jouer des sons

2 on enregistre les sons reçus à différents endroits de la pièce

30 3 on calcule la fonction de transfert grâce aux notions ordinaires de traitement de signaux

Le calcul de la FDT peut s'effectuer dans le plan Z soit X(Z) l'entrée et Y(Z) la sortie alors la fonction de transfert s'obtient par H(Z)= Y(Z)/X(Z) 35 Toutefois, ce procédé nécessite l'intervention d'un spécialiste étant donné que le positionnement de la source (haut-parleur) et du micro (récepteur) doit être calibré, et en tout état de cause un équipement supplémentaire qui ne sert en fait qu'au réglage et plus lors de l'utilisation.

La présente invention offre un moyen plus souple et plus facile pour un utilisateur moyen de calculer une fonction de transfert afin d'utiliser une commande vocale sur un appareil grand public.

L'objet de la présente invention est un procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérisé en ce qu'il comporte :

- une étape d'émission par la télécommande d'un signal sonore,

- une étape de réception au niveau de l'appareil dudit signal,

-une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil. De cette manière, l'appareil estime automatiquement la fonction de transfert d'un environnement d'utilisation inconnu. Connaissant les perturbations que subit un son entre l'endroit où se trouve la télécommande et donc probablement l'utilisateur et lui, l'appareil peut améliorer le taux de reconnaissance vocale. Selon un premier perfectionnement, la télécommande émet un code de commande pour déclencher le calcul de la fonction de transfert. De cette façon, l'utilisateur peut déclencher le calcul à l'aide de sa télécommande.

Selon un autre perfectionnement, l'appareil affiche à l'intention de l'utilisateur une indication l'incitant à déclencher le calcul. Selon un autre perfectionnement, l'appareil émet un code de commande pour la télécommande. Le code reçu active l'émission du signal sonore. De cette façon, c'est l'appareil qui déclenche automatiquement le calcul de la fonction de transfert. Selon un autre perfectionnement, l'appareil émet un code de commande pour la télécommande, lorsque le taux de reconnaissance vocale est inférieur à un certain seuil. Ainsi, l'appareil se rendant compte que la reconnaissance vocale fonctionne mal, va recalculer la fonction de transfert pour améliorer cette reconnaissance.

La présente invention concerne également un terminal audiovisuel composé d'un appareil et d'une télécommande, l'appareil comportant une interface de télécommande et un moyen de réception de signaux sonores, caractérisé en ce que la télécommande comporte un moyen d'émission d'un son connu de l'appareil et capté par un moyen de réception, et en ce que l'appareil comporte un moyen de calcul de la fonction de transfert de son environnement acoustique.

Selon un autre perfectionnement, la télécommande comporte une touche permettant de déclencher un nouveau calcul de fonction de transfert au niveau de l'appareil.

Selon un autre perfectionnement, l'utilisateur choisit à l'aide de touches de sa télécommande le signal sonore à émettre. Le code du signal sonore est envoyé à l'appareil qui peut ainsi déterminer le signal sonore de départ pour calculer efficacement la fonction de transfert grâce à la connaissance du signal émis et du signal reçu.

Selon un autre perfectionnement, c'est l'appareil qui envoie à la télécommande une donnée de commande lui demandant d'émettre un signal sonore. Selon un autre perfectionnement, l'appareil envoie la donnée de commande à la fin d'intervalles de temps d'utilisation déterminés.

L'invention, avec ses caractéristiques et avantages, ressortira plus clairement à la lecture de la description d'un exemple de réalisation particulier non limitatif fait en référence aux dessins annexés dans lesquels : - la figure 1 est un diagramme bloc d'un système à commande vocale selon un exemple de réalisation de l'invention,

- la figure 2 présente un système selon un premier mode de réalisation,

- la figure 3 présente un système selon un second mode de réalisation.

Nous allons tout d'abord décrire un exemple de terminal pour la mise en œuvre de l'invention. La figure 1 présente un terminal multimédia audiovisuel connecté à un dispositif d'affichage 2 tel qu'un écran de visualisation. Le terminal est composé d'un appareil 1 qui peut être un récepteur de télévision, un décodeur ou un terminal autonome de visualisation d'émissions audiovisuelles (un ordinateur personnel par exemple) et une télécommande 10. L'appareil 1 comprend une unité centrale 3 reliée entre autre à une mémoire 4 contenant des programmes exécutables et une mémoire réinscriptible pour le stockage des paramètres, une horloge 5, une interface de réception 9 de signaux émis par la télécommande 10, une logique de décodage audio/vidéo 12 (ou un module logiciel) pour la création des signaux audiovisuels envoyés à un écran de visualisation 2. La télécommande 10 est dotée d'un pavé numérique, de touches spécifiques telles que la touche marquée "TEST VOCAL", de touches destinées au contrôle des fonctions du terminal, d'un moyen de communication (de préférence par infra-rouge, ou par radio, ou par ultra-son, ou par tout autre canal de transmission non audible) avec l'interface 9 de l'appareil. La télécommande est également dotée d'un haut-parleur 11 pour l'émission de sons audibles.

Le terminal comprend également des moyens de réception 7 tel qu'un syntoniseur (TUNER selon la terminologie anglo-saxonne) et un démultiplexeur pour recevoir des émissions audiovisuelles d'un réseau de diffusion. Le terminal comprend également un circuit 13 d'affichage de données sur l'écran, appelé souvent circuit OSD, de l'anglais "On Screen Display" (signifiant littéralement "affichage sur l'écran"). Le circuit OSD 13 est un générateur de texte et de graphisme qui permet d'afficher à l'écran des menus, tels que des requêtes à l'intention de l'utilisateur. Le circuit OSD est contrôlé par l'Unité Centrale 3 en association avec un programme exécutable enregistré dans la mémoire 4.

L'appareil 1 comprend un dispositif de prise de son 6, un microphone par exemple. Les signaux reçus du microphone sont amplifiés, numérisés par un convertisseur analogique/numérique. Puis, les données représentant les sons sont analysés par un moteur de reconnaissance vocale 8 réalisé sous la forme d'un circuit spécialisé 8 de type DSP (de l'anglais "Digital Signal Processing"). De façon plus économique mais moins performante, le moteur peut être réalisé sous la forme d'un programme enregistré dans la mémoire 4, et exécuté par l'unité centrale 3.

Après avoir décrit les différents éléments de l'invention, nous allons maintenant expliquer comment ceux-ci coopèrent, selon un premier exemple de réalisation illustré par la figure 2.

Voici en détail les différentes étapes du procédé : Un aspect important de l'exemple de réalisation est le fait de considérer que l'utilisateur qui exprime vocalement des commandes à l'intention de son appareil, occupe approximativement la même position que sa télécommande. Donc, les Fonctions De Transfert (FDT) obtenues par des sons émis par la télécommande ou par l'utilisateur sont quasiment les mêmes, étant donné que les positions et l'environnement sont identiques.

A un certain moment, l'utilisateur se rend compte que la reconnaissance vocale de son terminal ne fonctionne plus de façon optimale, il décide alors d'effectuer un calcul de FDT pour déterminer la transformation du son entre la télécommande et l'appareil. L'utilisateur appuie sur une touche spéciale appelé « TEST VOCAL », la télécommande 10 émet alors un code de commande « TEST » via le canal de communication non audible 20 pour lancer au niveau du terminal un nouveau calcul de FDT. Une donnée de son est extraite de la mémoire de la télécommande, décodée et transformée par un convertisseur numérique/analogique N/A en un signal électrique analogique. Ce signal est amplifié et envoyé au petit haut-parleur 1 1 placé sur le devant de la télécommande 10. La télécommande émet un ou plusieurs signaux sonores 21 pendant une durée déterminée, une minute par exemple. Le haut parleur est avantageusement placé à coté de l'émetteur infra-rouge de façon à que les signaux sonores soient émis dans la même direction que les signaux infrarouges. De cette façon, lorsque le terminal reçoit des signaux infra-rouges par le canal 20, il peut aussi recevoir correctement les signaux sonores émis par la même télécommande.

Le signal sonore émis par la télécommande à travers le canal audible 21 est reçu par le terminal à l'aide du microphone 6. De préférence, le microphone 6 est placé sur la face avant de l'appareil. Le signal sonore est converti en données numériques par un convertisseur analogique/numérique A/N et traité par le système de traitement du téléviseur.

Connaissant le signai émis par la télécommande et le signal reçu par le microphone, on peut estimer la fonction de transfert, par la technique dite « Linear Prédiction » (LP) dont les bases peuvent être lues dans un document de Markhoul daté de 1975. Le calcul de FDT s'effectue à l'aide d'un programme enregistré dans la mémoire 4.

Soit un signal s(n) enregistré et émis par la télécommande, et u(n) celui reçu par le téléviseur. La méthode LP approche la FDT comme un filtre tout pôle de coefficients a(k) dans le cas simple selon l'équation ci-dessous. G est un gain et la résolution de cette équation se fait de manière efficace par la méthode de Durbin. s(n) - ^ _ a(k)s(n - k) + Gu(n) Dans la représentation en Z on obtient la formulation :

S(z) G

H(z) =

p est l'ordre du filtre d'autant plus grand qu'on veut une plus grande précision. On peut noter que sur certains processeurs spécialisés dits "DSP", la méthode LP est résidente dans le circuit. Une amélioration de ce premier mode de réalisation consiste en ce que l'appareil détecte une baisse du taux de reconnaissance et affiche un message, par exemple :

Taux de reconnaissance faible : x% Un tel message incite l'utilisateur a lancer le test en appuyant sur la touche « TEST VOCAL ». Le message peut aussi être une simple icône apparaissant dans un coin de l'écran, par exemple : « $ , ou « » indiquant que l'appareil 1 a des difficultés à reconnaître la commande vocale reçue.

De façon particulièrement simple, le signal sonore émis par la télécommande est toujours le même. Une variante de ce premier exemple de réalisation consiste en ce que la télécommande contient un tableau contenant un jeu de sons pré-programmés, chaque son étant identifié par un index. L'utilisateur appuie alors sur la touche TEST VOCAL puis sur une des dix touches de son clavier numérique. Le code de la touche enfoncée est un index pour rechercher les données correspondant au signal sonore émis. La télécommande émet alors via la liaison non audible (infra-rouge par exemple), un code de commande « TEST » pour commander un nouveau calcul de FDT et un identifiant de son, qui peut être simplement le code de la touche du pavé numérique. Suite à la réception de ce code, l'unité centrale du terminal recherche dans un tableau de sons pré-enregistrés contenu dans la mémoire 4, les données du signal sonore correspondant à l'identifiant reçu. Cette variante permet à l'utilisateur un meilleur contrôle de la durée du test.

Un perfectionnement à cette variante consiste en ce que le terminal affiche sur l'écran 2, le chiffre correspondant à la touche à enfoncer et guide ainsi l'utilisateur. Les différents messages sont générés par le circuit OSD 13. L'utilisateur suit alors les instructions affichées. Le terminal demande des sons tant que la FDT n'est pas totalement calculée.

Lorsque le terminal a fini de calculer les paramètres, il affiche sur l'écran 2 le message suivant :

Réglage de l'interface vocale effectué

Un second mode de réalisation consiste en ce que le terminal lance automatiquement la détermination d'une nouvelle fonction de transfert. Cette détermination peut par exemple être lancée lorsque l'interface vocale détecte un taux de reconnaissance inférieur à un certain seuil Une autre variante consiste à lancer le test à des intervalles de temps régulier, par exemple toutes les 10 heures de fonctionnement de l'appareil Ce second mode de réalisation est illustrée par la figure 3 II présente l'avantage de déclencher 5 automatiquement un calcul de FDT sans que l'utilisateur décide de le faire

Selon ce second mode de réalisation, l'interface de réception 9 du terminal et la télécommande 10 communiquent a l'aide d'une liaison bidirectionnelle illustrée par les deux flèches 20, 25 de la figure 3 L'émission des signaux vers la télécommande à l'aide d'un canal non audible 25 est ι o représentée par une flèche discontinue

Dans un premier temps, la télécommande reçoit un code de commande SU IVI d'une donnée correspondant au signal sonore à émettre La donnée constitue l'information numérique de la séquence sonore, cette séquence sonore étant d'une durée déterminée Cette donnée est transformée à l'aide

I 5 d'un convertisseur numérique/analogique en un signal électrique analogique, qui est amplifié et émis par le haut-parleur 1 1 Le terminal reçoit le son émis a l'aide de son microphone 6 et calcule automatiquement la FDT entre la télécommande et lui

Selon une variante de cette amélioration, le terminal transmet un 0 identifiant d'un son pré-stocké à la télécommande qui le décode et l'émet en retour de façon sonore Cette variante est particulièrement avantageuse car, elle réduit la taille des données transmises à la télécommande et donc aussi la durée de la transmission

5 Une autre variante consiste en ce que c'est l'utilisateur lui - même qui déclenche le test II le fait par exemple lorsqu'il se rend compte que le taux de reconnaissance vocale de son téléviseur diminue L'utilisateur déclenche l'émission sonore en appuyant sur la touche « TEST VOCAL» sur sa télécommande, ou sur un bouton en face avant du récepteur Le déroulement

30 du test est ensuite pris en charge par le récepteur 1 , le test utilise la communication bi-directionnelle entre le récepteur 1 et la télécommande

Les applications du présent perfectionnement sont le « Distant Talking », le traitement des réverbérations et le pré traitement du signal de 35 parole avant reconnaissance Un perfectionnement de l'invention consiste à faire apparaître des messages pour guider l'utilisateur lors du calcul de la fonction de transfert. Au début du calcul, le message suivant apparaît :

Mise au point de l'interface vocale

Pointer la télécommande vers l'appareil et NE

LA BOUGEZ PAS

Des messages d'erreur peuvent aussi être émis. Par exemple, lorsque le terminal reçoit des signaux sonores typiques du test vocal mais pas de signaux infra-rouges. Il faut alors demander à l'utilisateur de mieux orienter sa télécommande.

Les présents modes de réalisation qui viennent d'être décrits doivent être considérés à titre d'illustration mais peuvent être modifiés dans le domaine défini par la portée des revendications jointes. En particulier, l'invention ne se limite pas aux terminaux audiovisuels tels que des récepteurs de télévision mais peut s'appliquer à de nombreux dispositifs, en particulier des appareils électroniques grand public.

Claims

REVENDICATIONS

1 Procédé de reconnaissance de signaux sonores dans un terminal composé d'au moins un appareil et d'une télécommande, l'appareil comportant un moyen de réception de signaux sonores, caractérise en ce qu'il comporte

- une étape d'émission par la télécommande d'un signal sonore,

- une étape de réception au niveau de l'appareil dudit signal, -une étape de calcul d'une fonction de transfert du son caractérisant la transformation du son entre la télécommande et l'appareil

2 Procédé de reconnaissance selon la revendication 1 caractérisé en ce qu'il comporte au niveau de la télécommande une étape d'émission non audible d'un code de commande, la réception du code dans l'appareil activant l'étape de calcul de la fonction de transfert

3 Procédé de reconnaissance selon la revendication 2 caractérisé en ce qu'il comporte une étape d'affichage d'une indication proposant à l'utilisateur d'effectuer une commande d'émission non audible du code de commande

4 Procédé de reconnaissance selon la revendication 1 caractérisé en ce qu'il comporte une étape d'émission par l'appareil d'une donnée de commande par un canal non audible, la réception de la donnée de commande activant l'étape d'émission du signal sonore

5 Procédé de reconnaissance selon la revendication 4 caractérisé en ce que l'étape d'émission d'une donnée de commande est activée lorsque le taux de reconnaissance de son reçu au niveau de l'appareil est inférieur à un seuil déterminé

6 Procédé de reconnaissance de signaux sonores selon l'une quelconque des revendications 1 à 5, caractérisé en ce que la fonction de transfert est calculée par la technique Linear Prédiction (LP)

7 Terminal audiovisuel composé d'un appareil (1 ) et d'une télécommande (10), l'appareil comportant une interface de télécommande (9) et un moyen de réception de signaux sonores (6,8), caractérise en ce que la télécommande comporte un moyen d'émission (11 ) d'un son connu de l'appareil et capté par ledit moyen de réception (6,8), et en ce que l'appareil comporte un moyen de calcul (3,4) de la fonction de transfert (FDT) de l'environnement acoustique.

8. Terminal audiovisuel selon la revendication 7, caractérisé en ce que la télécommande (10) comporte un moyen d'émission d'un code reçu par l'interface de télécommande (9), ledit code activant le moyen de calcul (3,4) de la fonction de transfert (FDT).

9. Terminal audiovisuel selon la revendication 8, caractérisé en ce que la télécommande (10) comporte un moyen d'émission d'un code identifiant le signal sonore émis, et en ce que l'appareil recherche dans un moyen de mémorisation (4) les données du signal sonore correspondant au code reçu.

10. Terminal audiovisuel selon la revendication 7, caractérisé en ce que l'appareil (1) comporte un moyen d'émission d'une donnée de commande par un canal non audible, la réception de la donnée de commande activant le moyen d'émission (11) d'un son connu de l'appareil.

11. Terminal audiovisuel selon la revendication 10, caractérisé en ce que le moyen d'émission de la donnée de commande est activé lorsque le taux de reconnaissance de son reçu au niveau de l'appareil est inférieur à un seuil déterminé.

12. Terminal audiovisuel selon la revendication 10, caractérisé en ce que le moyen d'émission de la donnée de commande est activé par un temporisateur (5) à la fin d'une temporisation.