PROCEDE ET SYSTEME DE RESTITUTION SONORE A EFFET SPATIAL. ET TERMINAL DE TELEPHONIE INCORPORANT UN TEL SYSTEME
La présente invention concerne les techniques de spatialisation de sources sonores. Elle trouve une application particulière, non exclusive, dans le domaine de la téléconférence.
Dans certains systèmes de téléconférence, le confort d'écoute de l'utilisateur est amélioré en produisant un effet de localisation des sources sonores dans l'espace. En général, un tel système de téléconférence est organisé de telle sorte que les signaux de phonie issus d'une source sont accompagnés d'indications sur l'origine de cette source ou sur son positionnement, que le récepteur utilise pour produire l'effet de localisation (voir par exemple les brevets US 5 020 098 et 5 335 011 ). Mais dans de nombreux cas, de telles indications ne sont pas disponibles. Par exemple, un terminal téléphonique recevant par des lignes téléphoniques ordinaires des signaux audio comportant des contributions de plusieurs locuteurs ne pourra pas séparer spatialement ces locuteurs par la méthode ci-dessus.
On connaît d'autre part des systèmes téléphoniques utilisant des fonctions de vérification vocale de l'appelant, dans le but d'autoriser l'accès à des services sécurisés. Pour cela, la signature vocale de l'appelant est confrontée avec celle enregistrée dans un module de vérification (voir brevets US 5623 539, 5465290 ou 5414755). Une telle vérification est parfois utilisée pour accomplir une fonction analogue à celle d'un mot de passe (voir brevet américain 5 365 574 ou 5 517 558).
Un but de la présente invention est de permettre de spatialiser des sources sonores, sans requérir d'information spécifique sur la position des sources.
L'invention propose ainsi un procédé de restitution sonore à partir d'un signal audio d'entrée, dans lequel on analyse le signal d'entrée de manière à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et on effectue une restitution sonore de certaines au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination.
Le procédé associe des techniques de discrimination de locuteurs et des techniques de spatialisation audio. La séparation entre les différentes sources est effectuée sur la base du signal audio lui-même et non d'une
information extrinsèque.
On peut ainsi améliorer l'ergonomie de la restitution sonore d'un simple signal audio, en plaçant virtuellement les sources représentées par les différents locuteurs dans un espace sonore tridimensionnel. Les effets spatiaux appliqués dans la restitution sonore peuvent éventuellement comprendre des effets autres que la localisation d'une source, comme par exemple des effets de distance, de réverbération ou tout autre effet de salle.
La discrimination entre les portions de signal issues des différents locuteurs peut notamment comporter une identification d'un locuteur parmi un ensemble de locuteurs déterminés. Dans une application audiovisuelle, la restitution sonore d'une portion de signal est alors accompagnée par la présentation d'une image du locuteur identifié, qui est avantageusement positionnée de manière dépendante d'une direction de perception du son restitué. On peut ainsi former une sorte de salle de conférence virtuelle. II est à noter que le procédé n'a pas à reproduire les places exactes des locuteurs distants. Les directions de perception des sources sont au contraire arbitraires. Elles peuvent éventuellement être définies par l'utilisateur.
Le procédé peut s'appliquer au domaine de la téléconférence, la restitution sonore étant effectuée dans un terminal de téléphonie. L'analyse du signal d'entrée peut être effectuée soit dans le même terminal de téléphonie, soit dans un réseau d'acheminement du signal d'entrée (par exemple au niveau d'un autocommutateur).
Les applications du procédé ne sont pas limitées à la téléconférence. On peut par exemple l'utiliser également dans un habitacle d'automobile, pour restituer différentes sources sonores dans un espace tridimensionnel. Le placement des sources peut être fait dans le même but que dans le cas de l'application à la téléconférence, mais il peut aussi être fait dans le but de placer à certains endroits des sources sonores contenant des informations prioritaires ou plus importantes ou provenant de système différents (systèmes de navigation, téléphone, autoradio, ... ).
Le procédé est encore applicable à des systèmes de guidage, d'information routière, ...
Un autre aspect de la présente invention se rapporte à un système de restitution sonore comprenant des moyens d'analyse d'un signal audio d'entrée, propres à effectuer une discrimination entre des portions de signal issues de différents locuteurs, et des moyens de restitution sonore de certaines
au moins des portions de signal avec un effet spatial dépendant du résultat de la discrimination effectuée par les moyens d'analyse. Dans une application particulière, ce système est incorporé dans un terminal de téléphonie.
D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :
- la figure 1 est un schéma de principe d'un système de téléconférence mettant en œuvre le procédé selon l'invention ; et
- la figure 2 est un schéma synoptique d'un système de restitution sonore incorporé dans un terminal de téléphonie du système de la figure 1.
Dans la téléconférence illustrée schématiquement par la figure 1 , un utilisateur Z est en communication avec plusieurs locuteurs distants A, B, C, D.
Les locuteurs distants peuvent être situés au même endroit ou à des endroits différents. Dans l'exemple dessiné, chacun des locuteurs A et B utilise un terminal téléphonique propre, alors que les locuteurs C et D partagent le même terminal.
Un réseau public et/ou privé de télécommunications 5 met en communication l'utilisateur Z et ses interlocuteurs A-D. Le signal audio S envoyé du réseau 5 vers le terminal téléphonique 6 de l'utilisateur Z se compose ainsi d'une superposition de portions de signal respectivement issues des locuteurs A-D.
A partir de ce signal audio unique, le terminal 6 est capable de procéder à une restitution sonore avec des effets spatiaux dépendant du locuteur distant en train de parler. La partie du terminal téléphonique 6 traitant le signal audio reçu S est illustrée schématiquement sur la figure 2. Un module de traitement de signal 10 analyse le signal audio S afin de discriminer lequel des locuteurs A-D est à l'origine de la portion de signal courante.
Dans un mode de réalisation préféré de l'invention, le module 10 fonctionne sans connaissance a priori sur les différents locuteurs. Il peut ainsi comporter une unité 20 qui effectue une discrimination avec un processus d'apprentissage à mesure que les différents interlocuteurs A-D parlent.
L'apprentissage ne nécessite aucune donnée vocale préalable, et peut éventuellement être paramétré par l'utilisateur Z. Le module 10 peut aussi comporter une unité 21 qui utilise une base de données 22 permettant de différencier diverses catégories de voix, et
affecte chaque portion du signal audio S à l'une de ces catégories, par exemple selon un critère de maximum de vraisemblance, afin de discriminer entre les différents locuteurs.
Comme indiqué sur la figure 2, le module 10 peut encore comporter une unité 23 procédant à une discrimination par identification du locuteur distant. Cette unité 23 peut notamment mettre en œuvre l'une des méthodes utilisées classiquement à des fins de vérification d'identité d'un locuteur (cf. par exemple brevets US 5 623 539, 5 465 290, 5414 755, 5 365 574 et 5 517 558). Dans ce cas, le module d'identification 10 dispose de fichiers stockés dans une mémoire 24, contenant des données vocales représentatives des différents locuteurs en conférence. De tels fichiers peuvent être échangés préalablement à la communication, ou être partagés entre différents utilisateurs d'un même groupe.
L'information de discrimination du locuteur produite par le module 10 est adressée à un module 12 qui contrôle la restitution sonore par le terminal. Afin d'inclure des effets spatiaux dans cette restitution, le terminal comprend par exemple plusieurs haut-parleurs 13. Le module 12 affecte une direction de perception du son à chaque locuteur discriminé par le module 10, et commande les haut-parleurs 13 de façon que la portion du signal correspondante soit perçue par l'utilisateur Z comme provenant de cette direction.
Diverses méthodes classiques peuvent être employées par le module 12 afin de produire un effet spatial dépendant d'une direction simulée de perception du son, par exemple les méthodes décrites dans les brevets américains 5 335 011 et 5 020 098 dans des applications de téléconférence, ou encore la méthode décrite dans la demande WO94/10816.
Grâce au procédé combinant la discrimination du locuteur et la spatialisation appliquée à la restitution sonore, l'utilisateur peut percevoir des portions de parole issues de différents locuteurs mais comprises dans un même signal S comme provenant de différentes directions, comme l'illustre schématiquement la figure 1.
Notamment lorsque le module de traitement de signal 10 effectue une identification de locuteur, le terminal téléphonique 6 peut être associé à des moyens aptes à présenter des images des locuteurs distants A-D, comme par exemple un écran d'affichage 15. L'affichage de ces images est commandé par un module 16 du terminal, à partir d'images stockées dans une mémoire 17.
Comme les données vocales contenues dans la mémoire 24, les images stockées dans la mémoire 17 peuvent être chargées avant le début de la communication. Elles peuvent aussi être transmises par un signal audiovisuel, et être générées par l'intermédiaire de moyens d'enregistrement associés au terminal téléphonique 6, tels qu'une caméra. Dans le cas où le signal S est un signal audiovisuel, l'identification du locuteur peut de plus être effectuée à partir des données vocales et visuelles.
Différentes méthodes peuvent être appliquées par le module 16 pour commander l'affichage sur l'écran 15. Une possibilité est de présenter sur l'écran 15 une image de chacun des locuteurs distants A-D présents dans la communication. De façon avantageuse, l'image de chacun des locuteurs A-D est alors positionnée d'une façon correspondant aux positions virtuelles des sources sonores générées par le module de restitution 12. Ceci permet d'attirer l'attention de l'utilisateur Z sur l'image du locuteur en train de parler. Un autre possibilité est d'afficher la même image des différents locuteurs, et de signaler de façon particulière (surbrillance, changement de couleur, ...) celui des locuteurs identifié par le module 10. Une autre possibilité encore est de n'afficher que l'image du locuteur identifié.
Le terminal téléphonique 6 peut être un téléphone ordinaire associé à une unité comportant les modules de traitement de signal 10 et de restitution sonore avec effets spatiaux 12, ces modules 10,12 fonctionnant typiquement sur des signaux numériques, par exemple à l'aide de processeurs de traitement de signal (DSP). Le terminal 6 peut encore être de type « webphone », ou comprendre un ordinateur équipé de logiciels de téléphonie ou de logiciels pour la commande d'un téléphone externe. Dans ce dernier cas, l'écran 15 peut être celui de l'ordinateur, et les modules 10, 12, 16 relèvent d'applications exécutées par l'ordinateur.
Dans une variante de réalisation, le module 10 qui effectue l'analyse du signal audio d'entrée S n'est pas situé dans le terminal téléphonique, mais dans le réseau 5 qui achemine le signal S. Il peut notamment être placé dans un autocommutateur privé qui transmet avec le signal audio S des données indiquant le locuteur discriminé.
Le procédé selon l'invention a été décrit ci-dessus dans son application à la téléconférence. On notera qu'il peut être prévu dans d'autres contextes, en particulier dans un véhicule.