WO2002003692A1

WO2002003692A1 - Terminal et systeme de communication

Info

Publication number: WO2002003692A1
Application number: PCT/FR2001/001981
Authority: WO
Inventors: Michel Beaudoin Lafon; Nicolas Roussel; Jacques Martin; Jean-Dominique Gascuel; Georges Buchner; Hervé LISSEK
Original assignee: France Telecom
Priority date: 2000-07-04
Filing date: 2001-06-22
Publication date: 2002-01-10
Also published as: US20040068736A1; JP2004502381A; EP1297699A1; FR2811501B1; FR2811501A1; AU2001269243A1; US7190388B2

Abstract

L'invention propose un terminal de visioconférence (1, 2) comprenant des moyens de restitution d'image comportant un écran (10, 20) disposé sensiblement horizontalement, et présentant de préférence la forme d'un puits fermé à l'une de ses extrémités par l'écran (10, 20), ce qui permet à un grand nombre d'utilisateurs de se répartir l'espace autour de l'écran, et de faire du terminal un équipement de communication original et convivial dédié aux communications informelles entre utilisateurs distants les uns des autres.

Description

TERMINAL ET SYSTEME DE COMMUNICATION

L'invention concerne un terminal de communication, ainsi qu'un système de communication l'incorporant. Elle s'applique au domaine des systèmes de communication de groupe en mode interactif ou en mode diffusé, et plus particulièrement des systèmes multimédia tels que les systèmes de visioconférence. On appellera ici de façon très générique, système de visioconférence tout système de visiocommunication permettant d'établir entre des individus ou des groupes, des liaisons avec au moins deux des trois médias suivants: son, vidéo, données, de manière bilatérale symétrique ou asymétrique. De tels systèmes permettent à un ou plusieurs utilisateurs présents sur un premier site déterminé, de communiquer verbalement avec un ou plusieurs utilisateurs présents sur au moins un deuxième site déterminé, distant du premier site, et à chaque utilisateur d'un site de voir l'image d'un utilisateur d'un autre site en localisation spatiale cohérente avec le son généré par celui-ci. Plusieurs sites distants deux à deux peuvent ainsi être connectés par un réseau de communication ou de diffusion adapté, en général un réseau numérique tel que le RNIS (Réseau Numérique à Intégration de Service) ou ATM (de l'anglais « Asynchronous Transfer Mode »), ou ADSL (de l'anglais « Asymétrie Digital S bscriber Line »), ou IP, ou autre, en mode point à point ou en mode multipoints (ou multisites). Des données audio, correspondant en particulier aux sons produits par les utilisateurs, de même que des données vidéo, correspondant en particulier à l'image des utilisateurs, sont transmises via ce réseau. Dans la suite, le terme « local » est utilisé en référence audit premier site déterminé et le terme « distant » est utilisé en référence audit deuxième site déterminé, étant entendu que tout site est à la fois un site local et un site distant, selon qu'on se place du point de vue de l'un ou de l'autre site.

L'invention concerne la partie d'extrémité d'un tel système appelée « terminal ». Du point de vue de la transmission, elle utilise les mêmes supports réseau et les mêmes protocoles que ceux utilisés pour la visioconférence, pour la visiophonie, la télé-diffusion, ou autre. Le terminal selon l'invention pourrait être substitué aux équipements terminaux audiovisuels classiques (téléviseurs, visiophones, équipements de visioconférence, etc..) Les équipements de visioconférence connus comprennent, dans chaque site déterminé, des moyens de prise de vue tels qu'une caméra vidéo et des moyens de prise de son tels qu'un microphone, qui permettent respectivement l'acquisition de l'image et l'acquisition du son de la voix d'un utilisateur local. De plus, ils comprennent aussi des moyens de restitution d'image, tels qu'un projecteur vidéo coopérant avec un écran de projection, et des moyens de restitution sonore, tels que des haut-parleurs, qui permettent respectivement la restitution de l'image et la restitution du son produit par un utilisateur distant. Tous ces moyens sont habituellement situés dans une salle prévue et équipée à cet effet, dite salle ou studio de visioconférence, qui est en général fermé à clé en dehors des conférences afin notamment de prévenir le vol du matériel. Une visioconférence doit donc être organisée à l'avance,^' et suppose un rendez-vous prévu entre les utilisateurs qui sont convoqués pour se rendre dans le studio de visioconférence à une date et à une heure précises, la conférence ayant un but précis, en général professionnel. Les visioconférences constituent des réunions formelles. Dans chaque site, les utilisateurs s'assoient devant une table, l'écran étant disposé verticalement de l'autre côté de la table. Ils se comportent comme s'ils étaient assis à une table de réunion, et comme si les utilisateurs distants étaient assis en face d'eux, de l'autre côté de la table. Toutes ces contraintes rendent le service de visioconférence peu convivial car adapté à la communication dite « formelle » uniquement. De fait, ce service est encore largement réservé au domaine professionnel, c'est à dire au monde des entreprises. Certes, des solutions ont été proposées pour améliorer l'effet de coprésence procuré par un système de visioconférence. Par exemple, dans le document FR-A-2 761 562, il est proposé des moyens de répartition spatiale du son pour établir une correspondance entre le son généré par chaque participant distant et son image visualisée sur l'écran d'un site considéré. Néanmoins, il demeure que, pour les raisons indiquées ci-dessus, les systèmes de visioconférence ne sont pas devenus les instruments de télé- convivialité que l'on pouvait attendre.

L'invention vise à permettre la mise en œuvre d'un système de visioconférence au-delà des usages actuels, et ainsi à favoriser l'apparition d'une nouvelle forme de téléconvivialité, la rencontre informelle entre des individus distants les uns des autres.

A cet effet, l'invention propose un terminal de communication pour un système de visioconférence entre un ou plusieurs utilisateurs locaux et un ou plusieurs utilisateurs distants, comprenant :

- éventuellement mais non nécessairement des moyens de prise de vue, pour produire des données vidéo correspondant à l'image des utilisateurs locaux ;

- des moyens de prise de son pour produire des données audio correspondant au son généré par les utilisateurs locaux ;

- des moyens de restitution d'image comportant un écran disposé sensiblement horizontalement, pour restituer sur l'écran au moins l'image d'un utilisateur distant à partir de données d'image ;

- des moyens de restitution sonore pour restituer le son généré par l'utilisateur distant à partir de données audio ;

- éventuellement mais non nécessairement, des moyens de transmission de données informatiques codant des images supplémentaires ou des effets de déformation de l'image restituée.

La disposition horizontale de l'écran du terminal selon l'invention permet à un grand nombre de personnes de se répartir autour, au-dessous ou au- dessus de celui-ci sans se gêner.

L'invention propose en effet plusieurs modes de réalisation permettant d'envisager de nouvelles applications de la visiocommunication, dans le domaine grand public ou autre. Le terminal présente par exemple la forme générale d'un puits, autour, au dessus ou au dessous duquel les utilisateurs peuvent se répartir, ce qui en fait un équipement de communication original, attractif et convivial.

L'invention propose également un système de communication incorporant un tel terminal. Un tel système est multimédia et peut être interactif. II permet la communication entre des groupes de personnes distantes les unes des autres. D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés, sur lesquels on a représenté :

- aux figures 1 à 3 : le schéma respectivement d'un premier d'un deuxième et d'un troisième exemple d'application de terminaux selon l'invention ;

- à la figure 4 : le schéma simplifié d'un terminal, en coupe, montrant les moyens vidéo du terminal ;

- à la figure 5a et à la figure 5b : des schémas simplifiés d'un terminal, respectivement en coupe et en vue de dessus, montrant les moyens audio du terminal ;

- à la figure 6 : un schéma montrant les moyens de traitement d'image de deux terminaux ;

- à la figure 7 : un schéma montrant des moyens de traitement du son de deux terminaux ;

- à la figure 8 : une image type prise par les moyens de prise de vue de deux terminaux ;

- à la figure 9 : le schéma d'un premier exemple de composition des images sur l'écran d'un terminal ; - à la figure 10 : le schéma d'un deuxième exemple de composition des images sur l'écran d'un terminal ;

- à la figure 11 : le schéma d'un troisième exemple de composition des images sur l'écran d'un terminal ;

- à la figure 12 : un exemple de disposition relative des moyens de prise de son et des moyens de restitution sonore de deux terminaux ;

- à la figure 13 : le schéma symbolique d'un réseau de communication en mode multipoints reliant des terminaux d'un système selon l'invention ;

- à la figure 14 : le schéma symbolique d'une variante du réseau de la figure 13. Sur les figures, les mêmes éléments portent les mêmes références.

A la figure 1 , on a représenté deux terminaux 1 et 2 d'un système de visioconférence selon l'invention. Ces deux terminaux sont distants l'un de l'autre. La distance réelle entre les deux terminaux 1 et 2 dépend de l'application. Elle peut aller de quelques mètres à plusieurs centaines voire plusieurs milliers de kilomètres. Par convention, on se place dans la suite du point de vue du site du terminal 1. Dit autrement, le site du terminal 1 est appelé site local et le site du terminal 2 est appelé site distant. L'image et le son de la voix d'un utilisateur distant du premier terminal correspondent respectivement à l'image et au son de la voix d'un utilisateur local du second terminal, et réciproquement.

Chaque terminal 1 ou 2 comprend un écran 10 ou 20 respectivement. L'écran d'un terminal est disposé de manière sensiblement horizontale. Cela signifie que le plan de l'écran présente avec l'horizontale un angle nul ou faible (par exemple inférieur à 15 degrés). L'écran est préférentiellement plan, mais peut aussi avoir une formé bombée ou la forme d'une pyramide polygonale, de manière concave ou convexe.

L'écran est par exemple un écran diffusant, opaque ou translucide, un écran de type CRT (de l'anglais « Cathode Ray Tube »), un écran à plasma, un écran à cristaux liquides, ou autre. Il peut aussi s'agir d'un écran adapté à la stéréoscopie, à savoir un écran de type précité recouvert d'un réseau lenticulaire approprié ou un écran comprenant des valves optiques (cristaux liquides ou PLZT...) qui adressent alternativement la vue gauche à l'œil gauche et la vue droite à l'œil droit au moyen de lunettes appropriées. Dans un mode de réalisation préféré, c'est un écran diffusant translucide, tel qu'un panneau de verre dépoli.

De préférence, le terminal présente la forme générale d'un puits fermé à l'une de ses extrémités par l'écran. L'autre extrémité forme le fond du puits. De cette manière des utilisateurs locaux peuvent se répartir autour de l'écran sans se gêner. La forme du puits, en coupe dans le plan de l'écran, peut être circulaire comme montré à la figurel , polygonale ou autre. On notera qu'elle peut aussi affecter la forme d'une courbe non fermée.

Dans un exemple d'application préféré de l'invention, conforme au schéma de la figure 1 , la hauteur du puits, comptée à partir du niveau du sol sur lequel se tiennent les utilisateurs locaux 11 est par exemple sensiblement égale à la hauteur d'une table (typiquement 0,72m lorsque les utilisateurs se tiennent assis, voire plus, par exemple un mètre lorsque les utilisateurs se tiennent debout). Le fond du puits repose alors sur le sol.

Ainsi qu'il sera précisé plus loin, un projecteur vidéo est de préférence installé à l'intérieur du puits. Pour augmenter le recul du projecteur vidéo sans augmenter la hauteur du puits, il est possible d'ajouter une estrade autour du puits, sur laquelle les utilisateurs locaux peuvent se tenir. On peut aussi installer le puits dans une fosse ménagée dans le sol, en sorte que le fond du puits est en dessous du niveau du sol. On peut ainsi augmenter la taille de l'écran. Une vitre de protection transparente peut recouvrir l'écran, afin pour l'utilisateur, de pouvoir s'appuyer ou poser un objet sur le terminal sans risquer d'endommager l'écran. En variante, la vitre de protection peut être remplacée par une vitre ou une glace tactile, en sorte que l'écran devient un écran tactile. La vitre ou la glace sont traitées de manière à éviter le reflet des utilisateurs locaux penchés sur l'écran. En variante, une couche de matériau anti-reflet est appliquée sur la face de l'écran tournée vers les utilisateurs locaux.

Dans un autre exemple d'application, conforme au schéma de la figure 2, le terminal 1 est installé en sorte que l'écran 10 se trouve sensiblement au niveau du sol sur lequel se tiennent les utilisateurs 11. Une main courante 18 peut être installée autour du puits, pour permettre aux utilisateurs locaux de s'appuyer dessus pour se pencher au dessus du puits. De cette manière, les utilisateurs peuvent se répartir autour du puits. En variante, il n'y a pas de main courante et les utilisateurs peuvent se tenir au-dessus du puits.

Dans un autre exemple, conforme au schéma de la figure 3, le puits 1 s'étend vers le bas depuis le plafond 4 de la salle qui l'abrite. Dans cet exemple, le plan de l'écran 10 se situe au-dessus de la tête des utilisateurs 11 (par exemple à 2,5 mètres du niveau du sol 3 sur lequel se tiennent les utilisateurs 11 ). De cette manière, les utilisateurs peuvent se disposer autour et au-dessous de l'écran 20. Ils peuvent également s'asseoir dans des fauteuils relativement inclinés de manière à être dans une position plus confortable.

A la figure 4, on a représenté, sur un schéma en coupe selon un axe A- B (visible sur le schéma de la figure 5b), les moyens vidéo d'un terminal selon l'invention. Ces moyens vidéo comprennent d'une part les moyens de prise de vue et d'autre part les moyens de restitution d'image. La vitre de protection précitée est visible à la figure 4 et porte la référence 16.

Les moyens de prise de vue comprennent une ou des caméras. Dans l'exemple représenté, il y a trois caméras dont deux seulement 12 et 13 sont visibles sur le figures. Les caméras de préférence sont disposées à l'intérieur d'une margelle 17 du puits, où elles sont protégées. L'axe optique de chaque caméra est incliné par rapport au plan de l'écran de manière à pouvoir produire des données relatives à l'image d'un utilisateur local se tenant à une position déterminée autour du puits (ici de l'autre côté du puits, en vis à vis de la caméra considérée).

Des marquages au sol, ou des zones matérialisées sur la margelle 17 ou similaire peuvent indiquer aux utilisateurs locaux les zones déterminées où ils doivent se tenir. Ceci évite d'avoir à bouger les caméras. En variante, les caméras sont mobiles et couplées à un dispositif de poursuite approprié. Afin de permettre la stéréoscopie, plusieurs caméras peuvent prendre simultanément l'image d'un utilisateur local, sous des angles légèrement décalés pour créer l'effet de disparité stéréoscopique. En variante, la stéréoscopie peut aussi résulter de l'emploi par les utilisateur locaux de lunettes polarisées. Dans le cas où l'écran est un écran diffusant translucide (ici du verre dépoli à l'acide ou par sablage de sa surface), les moyens de restitution d'image comprennent au moins un projecteur vidéo 14 disposé du côté de l'écran 10 opposé aux utilisateurs locaux 11. Dit autrement, les moyens de restitution d'image fonctionnent par rétro-projection. De préférence, le projecteur 14 est disposé à l'intérieur du puits, de manière à ce que le signal vidéo qu'il produit vienne éclairer la face de l'écran 10 tournée vers le fond 19 du puits. De cette façon, il est protégé et, de plus, il n'est pas visible de l'extérieur du puits. Dans l'exemple représenté, l'axe optique du projecteur 14 est incliné par rapport au plan de l'écran 10 dans une direction opposée à celui-ci et est orienté vers un miroir 15 disposé dans le puits de manière à réfléchir le signal optique généré par le projecteur 14 vers l'écran 10. Ceci permet d'augmenter la taille de l'image projetée sur l'écran 10 par rapport à une projection directe. D'autres miroirs tel que le miroir 15 peuvent être également utilisés. Le nombre et la forme de ces miroirs dépendent de l'agencement du projecteur 14 dans le puits.

A la figure 5a, on a représenté, sur une vue en coupe verticale selon un axe A-B un terminal selon l'invention. Sur la figure 5b, on a représenté une vue de dessus du terminal selon l'invention. Sur ces figures on a représenté les moyens audio du terminal. Ces moyens comprennent d'une part les moyens de prise de son et d'autre part les moyens de restitution sonore du terminal.

Les moyens de prise de son comprennent des microphones. Dans l'exemple représenté ces microphones sont au nombre de trois, et portent les références 101 , 102, et 103. Les trois microphones 101 à 103 sont par exemple suspendus au-dessus du centre de l'écran 10 et forment deux à deux un angle de 120 degrés. Il s'agit de préférence de microphones directifs, de directivité cardioïde, hypercardioïde, ou autre, orientée depuis le centre vers la périphérie de l'écran 10. Un microphone est orienté de manière à produire des données audio correspondant au son généré par un utilisateur local se tenant ou se déplaçant dans une zone déterminée par rapport à l'écran ou par rapport aux caméras. Dans un exemple, les microphones sont disposés sensiblement à la hauteur de la bouche des utilisateurs locaux 11 , et ils font face aux caméras. Les utilisateurs sont cadrés par les caméras, et ils peuvent parler entre deux microphones. En variante ou en complément, les moyens de prise de son comprennent un microphone omnidirectionnel. De préférence, ce microphone est alors couplé à un dispositif d'annulation d'écho.

Les moyens de restitution sonore, comprennent des haut-parleurs. Dans l'exemple représenté à la figure, les haut-parleurs sont au nombre de trois. Seuls deux d'entre eux 104 et 105 sont visibles sur la figure 5a. Ils sont par exemple disposés dans la margelle 17. De cette manière, ils n'encombrent pas l'espace au centre du puits, qui est traversé par le signal optique produit par le projecteur vidéo 14. De plus, ils sont alors protégés. De préférence, les haut- parleurs sont uniformément répartis à la périphérie du puits. Avantageusement, ils sont disposés du côté de l'écran 10 opposé aux utilisateurs locaux 11 , c'est à dire du côté de la face de l'écran 10 tournée vers le fond 19 du puits. De cette manière les utilisateurs locaux 11 , dont les oreilles et les yeux sont situés du côté de l'écran 10 opposé au fond 19 du puits ont l'impression que le son vient du fond du puits. Ceci donne l'impression que les personnes qui parlent se trouvent réellement dans le puits. Le son débouche de la margelle 17 par des ouïes 8 ménagées à sa surface.

Les microphones 101 à 103 sont par exemple solidaires d'une suspension fixée à un système d'arceaux (non représentés) formant un portique au-dessus de l'écran 10. Ces arceaux sont par exemple fixés aux parois verticales ou à la margelle 17 du puits. Ils délimitent l'emplacement des utilisateurs. Les haut-parleurs 104 à 106 sont, de préférence, montés sur une suspension appropriée. Le montage en suspension des haut-parleurs et/ou des microphones permet d'éviter tout risque de couplage « solidien » entre les premiers et les seconds.

En complément ou à la place des haut-parleurs précités, les moyens de restitution sonore peuvent comprendre des haut-parleurs plats et transparents maintenus, par exemple par collage, sur la face de l'écran 10 opposé au fond 19 du puits (celle tournée vers les utilisateur locaux 11 ). Le son restitué par ces haut-parleurs est alors en correspondance subjective avec l'image restituée sur la zone de l'écran 10 sur laquelle ils sont disposés. De tels haut-parleurs ont fait récemment leur apparition sur le marché et sont proposés, par exemple, par la société NXT Corporation. En variante, les haut parleurs plats précités ne sont pas transparents.

Les moyens de restitution vidéo comprennent alors un projecteur disposé du même côté de l'écran que les utilisateurs locaux, l'écran étant dans ce cas un écran diffusant opaque.

Les parois internes du puits sont de préférence revêtues d'un matériau absorbant acoustique 6 permettant d'éviter l'effet « caisse de résonance » à l'intérieur du puits.

Chaque dispositif comprend une unité de gestion comportant des moyens de traitement audio et des moyens de traitement vidéo. Ces deux types de moyens vont maintenant être décrits séparément en référence respectivement aux schémas de la figure 6 et de la figure 7. Cette présentation séparée a été choisie par souci de commodité. Néanmoins, ces deux groupes de moyens réalisent bien entendu une unité fonctionnelle, de manière que les sons et les images restitués dans chaque terminal soient en cohérence les uns avec les autres. Sur les schémas des figures 6 et 7, on considère l'exemple d'un système de visioconférence point à point entre les terminaux 1 et 2.

L'unité de gestion vidéo 15 du terminal 1 comprend une matrice M de composition d'image recevant en entrée les signaux vidéo générés par les caméras 12 et 13. La sortie de la matrice M est couplée à l'entrée d'un duplicateur de flux lumineux D.

La sortie de ce duplicateur D est reliée à l'entrée d'un codeur vidéo 17. Les données vidéo compressées en sortie du codeur 17 correspondent à au moins une image d'un utilisateur local 11 (figure 1 ). Elles sont transmises vers le terminal distant 2 par l'intermédiaire d'un réseau de communication via des interfaces (non représentées) appropriées au type de réseau utilisé pour la transmission.

La sortie du duplicateur D est en outre reliée à l'entrée vidéo d'une unité de traitement vidéo numérique VPU, telle qu'une station de la famille SGI proposée par la société Silicon Graphics ou tout autre équipement de traitement d'image en temps réel permettant la composition d'images, le trucage, l'incrustation d'images, etc....

Celle-ci comprend aussi une entrée de données pour recevoir, via un convertisseur analogique/numérique A/D, des données vidéo délivrées par la sortie d'un décodeur vidéo 18. Ces données vidéo sont transmises depuis le terminal distant 2 par l'intermédiaire du réseau de communication via les interfaces appropriées (non représentés). Elles correspondent à au moins une image d'un utilisateur distant 21 (figure 1).

La sortie vidéo de l'unité VPU est reliée à l'entrée vidéo du projecteur vidéo 14. Elle délivre par exemple un signal vidéo pour une image au format 1024x768 (pixels).

L'unité VPU réalise les fonctions suivantes :

- l'acquisition des images locales produites par les caméras, en vue de leur restitution par le terminal local lui-même ; - la gestion de la stéréoscopie ;

- la composition des images locales et/ou des images distantes, soit par fusion soit par superposition, ainsi qu'il sera explicité plus loin ;

- la restitution de l'image composée ; - éventuellement le trucage vidéo, pour produire des effets spéciaux, par exemple pour ajouter à l'image restituée des perturbations produisant un effet de déformation de l'image restituée ; une telle déformation peut correspondre à des vaguelettes sur l'écran, afin de simuler l'agitation de la surface de l'eau et d'augmenter ainsi la similitude avec un puits réel ; l'écran peut alors être un écran tactile, l'effet de vaguelettes étant produit lorsqu'un utilisateur local touche l'écran ; ces déformations peuvent être codées par des données informatiques transmises avec les données audio et les données vidéo, par exemple selon le protocole ITU T120 ou similaire ; - éventuellement également, l'incrustation numérique ou analogique d'images vidéo supplémentaires codées au format JPEG (par exemple des dessins, plans, graphiques, ou similaire permettant d'illustrer le propos des utilisateurs) ; ces images supplémentaires, qui ne correspondent pas à des images prises par les moyens de prise de vue selon l'invention, sont codées par des données informatiques transmises avec les données audio et les données vidéo, par exemple selon le protocole ITU T120 ou similaire.

Le fait de composer une image à partir des images locales et des images distantes, permet à chaque utilisateur de voir les autres utilisateurs sur l'écran, y compris ceux qui se trouvent sur le même site que lui. On évite ainsi les mouvements de tête des utilisateurs locaux, visibles par les utilisateurs distants, allant de l'écran au visage des autres utilisateurs locaux. Cela permet en outre à chaque utilisateur local de se placer autour du puits comme si les deux groupes d'utilisateurs (locaux et distants) étaient un seul et même groupe de personnes présentes autour du puits. Le codage des données transmises d'un terminal à l'autre a pour but de compresser les données vidéo afin de limiter la bande passante nécessaire à la transmission, ce qui permet d'adapter le débit aux lignes offertes par les opérateurs de télécommunication. Le codeur 17 et le décodeur 18 sont par exemple un codeur et un décodeur de type MPEG (de l'anglais "Moving Pictures Experts Group"), c'est à dire qu'ils répondent au standard de compression des films vidéos du Groupe d'Experts des Images Animées. Il peut aussi s'agir d'un codeur de type ITU H263 (de l'anglais « International Télécommunication Union ») ou de type AVI (de l'anglais « Audio Video Interleaved »).

En partie droite de la figure 6, on a représenté de même le schéma d'une unité de gestion 25 du terminal distant 2. Cette unité 25 étant identique à l'unité de gestion 15 du terminal local 1 , elle ne sera pas décrite à nouveau. On notera que les éléments du terminal distant 2 correspondant aux éléments du terminal local 1 visibles notamment sur la figure 6, portent la même référence que ces derniers avec, pour le chiffre des dizaines, le chiffre 2 en lieu et place du chiffre 1. Bien entendu, plus de deux caméras peuvent être prévues dans certains ou dans chacun des terminaux du système de visioconférence. Dans ce cas, l'unité de gestion vidéo de ces terminaux est bien sûr modifiée de façon correspondante, en fonction des équipements disponibles, ainsi que l'homme du métier le perçoit immédiatement. De même, dans le cas d'un réseau de communication en mode multipoints, c'est à dire lorsque chaque terminal est relié par le réseau à au moins deux autres terminaux distants, il faut prévoir d'autres décodeurs vidéo tels que le décodeur 18 (un pour chaque site distant relié). Chacun de ces décodeurs délivre alors des données vidéo décompressées sur une entrée de données appropriée de l'unité VPU. Toutefois, ces mesures ne sont pas nécessaires lorsque le réseau de communication comprend un équipement de visioconférence multipoint ou EVM (en anglais, "Multipoint Conférence Unit" ou MCU). On peut aussi prévoir des liaisons audiovisuelles directes entre les terminaux sachant que c'est l'unité VPU qui gère la composition des images sur l'écran.

A la figure 8, on a représenté symboliquement un exemple d'images 31 , 32, 33 et 34 générées respectivement par les caméras 12 et 13 du terminal local 1 et par les caméras 22 et 23 du terminal distant 2. Les figures 9 à 11 montrent des exemples de la composition des images locales et distantes produite par l'unité VPU. Les images montrées sur ces figures sont rectangulaires, mais cela ne limite en rien la forme de l'écran qui ainsi qu'il a été dit plus haut, peut être circulaire, ovale, polygonale ou autre. La figure 9 montre l'image composée 35 obtenue par superposition des images 31 à 34. Les images sont superposées par transparence. L'intensité lumineuse des images ainsi superposées n'est pas forcément identique pour chaque image. De préférence, l'intensité lumineuse de l'image des utilisateurs locaux est inférieure à celle de l'image des utilisateurs distants. De cette manière, les utilisateurs locaux n'apparaissent sur l'écran que sous forme d'ombres, de « fantômes » ou similaire. Ce mode de composition produit une image homogène observable par toutes les personnes rassemblées autour du puits. La figure 10 montre l'image composée 36 obtenue par fusion

(concaténation) des images 31 à 34. Ce mode de composition consiste à affecter un zone particulière de l'image restituée à chaque source d'image (caméra), en opérant ainsi une partition l'image restituée. Ce mode de composition produit une image présentant des discontinuités ou bien des « fondus enchaînés ». Ceci permet de ne faire apparaître ou de mettre en valeur l'image d'un utilisateur seulement, par exemple celui qui prend la parole. Ces effets spéciaux sont générés par l'unité VPU qui mélange et règle les niveaux de luminance des images. On peut par exemple affecter la zone de l'écran la plus proche de chaque utilisateur local à l'image de cet utilisateur local, en sorte que l'utilisateur peut ainsi se voir sur l'écran comme s'il se voyait par reflet à la surface de l'eau dans un puits réel.

Les images composées montrées sur les figures 9 et 10 produisent un effet identique à celui produit par l'eau dans un puits réel. Chaque personne se voit à l'endroit et voit les autres personnes à l'envers. Enfin la figure 11 montre l'image 37 obtenue par fusion des images 31 à

34 après inversion géométrique (de haut en bas) de ces images. Cette composition permet de focaliser l'attention des utilisateurs sur le centre de l'écran et non plus sur sa périphérie comme dans les deux autres modes de composition. En outre, elle permet à chaque utilisateur local de voir une autre personne de face.

En général, la composition des images sera telle que l'image d'un utilisateur local et celle d'un utilisateur distant soient localisées en vis à vis sur l'écran. De préférence, la localisation sur l'écran de l'image sonore d'un utilisateur distant est cohérente avec la localisation sur l'écran de l'image de cet utilisateur distant telle que restituée sur l'écran. Ceci est obtenu par une commande appropriée de l'unité de traitement vidéo VPU précitée et d'une unité de traitement audio (qui va maintenant être décrite).

A la figure 7, on a représenté les moyens de traitements audio de l'unité de gestion 15 du terminal local 1 (en partie gauche de la figure) et les moyens correspondants de l'unité de gestion 25 du terminal distant 2 (en partie droite de la figure). En fait ces moyens sont identiques pour chaque terminal. On notera que les éléments du terminal distant 2 correspondant aux éléments du terminal local 1 visibles notamment sur la figure 7, portent la même référence que ces derniers avec pour le chiffre des centaines, le chiffre 2 en lieu et place du chiffre 1.

L'unité de gestion 15 du terminal local 1 comprend une unité de traitement audio numérique APU réalisée par exemple sous la forme d'un ou plusieurs DSP (de l'anglais "Digital Signal Processor" qui signifie processeur de signal numérique) ou sous la forme de cartes audio numériques pour ordinateur de type PC. Des entrées analogiques ou numériques de l'unité APU sont reliées aux microphones 101 , 102 et 103 via des pré-amplificateurs analogiques A. Des sorties analogiques de l'unité APU sont reliées à un codeur audio 117 tel qu'un codeur de type MP3 (de "MPEG - Layer III", qui désigne le standard de compression de données audio pour l'Internet) ou traitées selon les modes normalisés en télécommunication (ITU G711 , G742, G748, G723, G729, etc.. selon le débit) pour produire des données audio compressées. Ces données audio compressées correspondent aux sons générés par les utilisateurs locaux et captés par les microphones 101 à 103. Ces données sont transmises par l'intermédiaire du réseau de communication via des interfaces appropriées (non représentés) vers le terminal distant 2.

L'unité de gestion 15 comprend en outre un décodeur audio 118 qui est le dual du codeur audio de l'unité de gestion 25 du terminal distant 2, tel qu'un décodeur MP3 ou G7xx (voir ci-dessus). Le décodeur 118 reçoit des données audio du réseau de communication (non représenté) reliant le terminal local 1 au terminal distant 2 via les interfaces appropriées (également non représentées). Des sorties analogiques ou numériques du décodeur 118 sont reliées, via des amplificateur de puissance PA respectifs, aux hauts-parleurs 104, 105 et 106 des moyens de restitution sonore. Les sons restitués par ces haut-parleurs à partir desdites données audio, correspondent aux sons générés par des utilisateurs distants 21 (figure 1 ).

Un microphone du terminal local 1 est associé à un haut-parleur du terminal distant 2. Par exemple, les microphones 101 à 103 du terminal 1 sont respectivement associés aux haut-parleurs 204 à 206 du terminal 2. De même, un haut-parleur du terminal local 1 est associé à un microphone du terminal distant 2. Par exemple, les haut-parleurs 104 à 106 du terminal 1 sont respectivement associés aux microphones 201 à 203 du terminal 2.

L'unité APU réalise les fonctions suivantes :

- l'acquisition des données audio correspondant au sons captés par les microphones 101 à 103 . - le contrôle de l'effet spatial, c'est à dire le contrôle de la cohérence spatiale des données audio correspondant au son généré par chaque utilisateur local avec les données vidéo correspondant à l'image respective des utilisateurs locaux, qui sont produites par l'unité de gestion 15 ;

- éventuellement l'annulation d'écho et/ou des effets anti-réverbération ; - éventuellement également des effets sonores additionnels, tels qu'un effet donnant l'impression que les utilisateurs parlent du fonds d'un puits réel ; un autre effet sonore intéressant est l'effet spatial dit "pan-pot", équivalent à la stéréophonie dans un plan, en l'occurrence celui de l'écran ; l'effet "pan-pot" correspond à une stéréophonie avec plusieurs voies de reproduction ; cet effet est obtenu, dans une configuration à au moins trois haut-parleurs locaux associés à trois microphones distants, en classant les niveaux (intensité) en sortie des microphones et en choisissant l'association des haut-parleurs locaux et des microphones distants en fonction de ce classement ; ceci permet de positionner l'image sonore d'un locuteur distant dans une zone déterminée du plan de l'écran ; cette zone est naturellement choisie de manière que sa localisation sur l'écran soit cohérente avec la localisation de l'image du locuteur distant restituée sur l'écran. Le contrôle de l'effet spatial complète l'effet naturellement produit par la directivité des microphones. Par exemple, si l'on considère une paire de microphones directifs et leur paire de haut-parleurs associés, cet effet correspond à un effet stéréophonique simple. Mais avec trois haut-parleurs au moins, un effet spatial de type « pan-pot » permet à l'image sonore de se déplacer dans un plan correspondant au plan de l'écran.

L'annulation d'écho est notamment utile si les moyens de prise de son comprennent un microphone omnidirectionnel. Toutefois, outre les problèmes d'écho, elle permet également de s'affranchir des problèmes de stabilité des boucles audio.

Les microphones locaux captent les sons générés par les utilisateurs locaux. Ces sons sont restitués par les haut-parleurs distants et peuvent être captés par les microphones distants. Ils sont alors restitués par les hauts parleurs locaux. Ils peuvent à leur tour être captés par les microphones locaux, etc.. Par conséquent, en cas de couplage entre les microphones et les hauts- parleurs d'un terminal, il y a un bouclage acoustique dont il faut assurer la stabilité afin d'éviter la saturation des moyens audio (par effet "Larsen").

Dans l'exemple de réalisation préféré des terminaux, la stabilité acoustique provient essentiellement de la directivité des microphones, associée à la diffraction acoustique sur le rebord de la margelle 17 du puits.

Un renfort de stabilité peut être obtenu en choisissant une directivité cardioïde du second ordre ou hypercardioïde. La directivité des microphones a aussi l'avantage d'améliorer l'effet spatial.

Le risque de couplage entre les microphones et les hauts-parleurs peut en outre être avantageusement réduit en respectant la mesure suivante. Le haut-parleur du site local qui est associé au microphone du site distant qui est le plus proche du haut-parleur du site distant associé à un microphone déterminé du site local, est le plus éloigné possible dudit microphone déterminé du site local. Les termes "proches" et "éloignés" employés ci-dessus s'entendent au sens acoustique, c'est à dire qu'ils se réfèrent respectivement à un couplage important et à un couplage faible, compte tenu de la directivité des microphones et/ou des haut-parleurs, des diffractions, réflexions et/ou absorptions acoustiques tenant à l'implantation de ces derniers, et d'une manière générale de toutes les perturbations acoustiques impliquées par l'implantation matérielle des éléments du terminal considéré.

Le schéma de la figure 12 illustre un exemple d'application de cette mesure dans le cas considéré précédemment de terminaux en forme de puits dont la surface est circulaire, ayant chacun trois microphones et trois hauts- parleurs associés. Sur cette figure les mêmes éléments qu'à la figure 7 portent les mêmes références. On voit, par exemple, que le haut-parleur 104 du terminal 1 , qui est associé au micro 201 du terminal 2 qui est le plus proche du haut-parleur 204 du terminai 2 associé au microphone 101 du terminal 1 , est le plus éloigné possible dudit microphone 101 du terminal 1. Dans l'exemple, le haut-parleur 104 est disposé dans la margelle du puits à une position angulaire correspondant à un angle de +120° (compté dans le sens trigonométrique) par rapport au rayon correspondant à l'axe de la directivité du microphone 101 la position. Le système comprend au moins deux terminaux de visioconférence tels que décrits ci-dessus. Chaque terminal est distant des autres terminaux. Les terminaux sont reliés par un réseau de communication ou de diffusion pour la transmission des données audio et vidéo.

Dans un premier exemple d'application, les terminaux sont répartis sur des sites différents, par exemple les sites de différents établissements d'une entreprise. Dans ce cas, le réseau peut être de type WAN (de l'anglais « Wide Area Network »). Il peut aussi s'agir de l'Internet, d'un réseau haut débit sur ATM (de l'anglais « Asynchronous Transfer Mode »), d'un réseau de lignes spécialisées, et de façon générale de tout type de réseau de communication par liaison filaire radio, optique et/ou par satellite.

Dans chaque site, les terminaux sont de préférence installés dans un lieu habituel de rencontre, un espace ouvert formant un forum tel qu'un hall d'entrée, une salle de repos (où se trouvent habituellement les machines à café), une cafétéria ou tout simplement un couloir. Ainsi placés, les terminaux qui comme on l'a dit peuvent être en fonctionnement continu, réalisent le lien, l'interface, entre les différents sites.

Dans un deuxième exemple d'application, les terminaux sont répartis en différents emplacements d'un même site, par exemple ils sont disposés dans un lieu public, une grande salle, un salon de réception, etc ... C'est dans ce type d'application que les terminaux peuvent avantageusement avoir la forme d'une table. Dans ce cas, le réseau peut en outre être de type LAN (de l'anglais « Local Area Network »). Dans ces exemples d'application, les terminaux peuvent fonctionner en continu, de manière à permettre la communication informelle et sans rendez- vous entre des utilisateurs distants les uns des autres. Les puits constituent donc, dans chaque site, une fenêtre ouverte sur un site distant. Les utilisateurs peuvent alors, en passant près du puits, regarder dans le puits pour avoir un contact visuel avec un utilisateur se trouvant sur le site distant. Une conversation peut alors facilement être engagée. Le puits de visioconférence permet donc la communication informelle et conviviale entre des utilisateurs distants.

D'autres applications peuvent aussi réaliser la combinaison des premier et deuxième exemples ci-dessus.

Lorsque le système ne comprend que deux terminaux, on dit que ces* terminaux sont reliés par le réseau en mode point à point. Lorsque le système comprend plus de deux terminaux, on dit qu'ils sont reliés par le réseau en mode multipoint. Dans l'exemple représenté à la figure 13, le système comprend un réseau de communication R comprenant des liaisons 310 pour relier les terminaux 300 en mode multipoint. Il s'agit bien entendu de liaisons bidirectionnelles, qui sont symétriques ou asymétriques en débit. Dans cet exemple, le réseau est complètement maillé, c'est à dire que des liaisons 310 relient spécifiquement chaque terminal déterminé à chacun des autres terminaux. Néanmoins, le réseau peut n'être que partiellement maillé.

Dans l'exemple représenté à la figure 14, le système comprend un réseau de communication R comprenant un équipement de visioconférence multipoints ou EVM (en anglais « Multipoint Conferencing Unit » ou MCU), aussi appelé pont de visioconférence. Cet équipement, connu en soi, est relié, par une liaison 320, à chacun des terminaux 300. Il assure le multiplexage et la commutation des données audio et vidéo, ou autres, en provenance ou à destination de chacun des terminaux. Dans d'autres exemples, non représentés, le réseau peut à la fois contenir un EVM et des liaisons directes entre certains au moins des terminaux deux à deux. Ceci correspond à une combinaison des exemples représentés aux figures 13 et 14.

Claims

REVENDICATIONS

1. Terminal de communication pour système de communication entre un ou plusieurs utilisateurs locaux (11 ) et un ou plusieurs utilisateurs distants (21), comprenant :

- des moyens de prise de son (101-103,201-203) pour produire des données audio correspondant au son généré par les utilisateurs locaux ;

- des moyens de restitution d'image (14,10,20) comportant un écran (10,20) disposé sensiblement horizontalement, pour restituer sur l'écran au moins l'image d'un utilisateur distant à partir de données d'image ;

- des moyens de restitution sonore (104-106,204-206) pour restituer le son généré par l'utilisateur distant à partir de données audio.

2. Terminal selon la revendication 1 , comprenant en outre :

- des moyens de prise de vue (12,13), pour produire des données vidéo correspondant à l'image des utilisateurs locaux (11 ).

3. Terminal selon la revendication 1 ou la revendication 2, comprenant en outre :

- des moyens de transmission de données informatiques codant des images supplémentaires ou des effets de déformation de l'image restituée.

4. Terminal selon l'une des revendications 1 à 3, comprenant en outre : - des moyens de composition de l'image d'au moins un utilisateur local et de l'image d'au moins un utilisateur distant sur l'écran.

5. Terminal selon la revendication 4, dans lequel les moyens de composition fonctionnent par superposition de l'image de l'utilisateur local et de l'image de l'utilisateur distant.

6. Terminal selon la revendication 4, dans lequel les moyens de composition fonctionnent par partition de l'écran en plusieurs zones de restitution, une première zone de restitution étant réservée à la restitution de l'image de l'utilisateur local et une seconde zone de restitution étant réservée à la restitution de l'image de l'utilisateur distant.

7. Terminal selon l'une quelconque des revendications précédentes dans lequel les moyens de restitution d'image fonctionnent par rétro-projection.

8. Terminal selon l'une quelconque des revendications précédentes dans lequel les moyens de prise de vue comprennent au moins une caméra (12,13) fixe disposée de manière à produire des données vidéo correspondant à l'image d'un utilisateur local (11) se tenant dans une zone déterminée par rapport à l'écran (10).

9. Terminal selon l'une quelconque des revendications précédentes dans lequel les moyens de prise de son comprennent au moins un microphone directif orienté de manière à produire des données audio correspondant au son généré par un utilisateur local se tenant dans une zone déterminée par rapport à l'écran (10).

10. Terminal selon l'une quelconque des revendications précédentes dans lequel les moyens de prise de son comprennent au moins un microphone omnidirectionnel couplé à des moyens d'annulation d'écho de manière à produire des données audio correspondant au son généré par les utilisateurs locaux.

11. Terminal selon l'une quelconque des revendications précédentes, dans lequel les moyens de restitution sonore comprennent plusieurs haut- parleurs (104-106,204-206) disposé du côté de l'écran (10) opposé aux utilisateurs locaux (11 ).

12. Terminal selon la revendication 11 dans lequel les moyens de restitution sonore comprennent une unité de traitement audio (APU) produisant un effet spatial de type « pan-pot ».

13. Terminal selon l'une quelconque des revendications précédentes, dans lequel les moyens de restitution sonore comprennent des haut-parleurs plats et transparents disposés sur la face de l'écran (10) tournée vers les utilisateurs locaux (1 1 ) en relation avec l'image de l'utilisateur distant.

14. Terminal selon l'une quelconque des revendications précédentes dans lequel les moyens de restitution vidéo comprennent une unité de traitement vidéo (VPU) produisant un effet de déformation de l'image restituée.

15. Terminal selon l'une quelconque des revendications précédentes, présentant la forme générale d'un puits fermé à l'une de ses extrémités par l'écran.

16. Terminal selon la revendication 15, dans lequel le puits est disposé par rapport au plan du sol sur lequel se tiennent les utilisateurs locaux (1 1 , figure 1 ), de manière que la hauteur de l'écran par rapport à ce plan soit de l'ordre de la hauteur moyenne d'une table.

17. Terminal selon la revendication 5 dans lequel le puits est disposé par rapport au plan du sol (3, figure 2) sur lequel se tiennent les utilisateurs locaux (11 , figure 2) de manière que l'écran soit sensiblement à la hauteur de ce plan.

18. Terminal selon la revendication 15, dans lequel le puits est disposé par rapport au plan du sol (3, figure 3) sur lequel se tiennent les utilisateurs locaux (1 1 , figure 3) de manière que l'écran soit au-dessus des utilisateurs locaux.

19. Terminal selon l'une quelconque des revendications 15 à 18, comprenant une unité de gestion (15,25) reliée aux moyens de prise de vue, aux moyens de prise de son, aux moyens de restitution d'image et aux moyens de restitution sonore, et disposée à l'intérieur du puits.

20. Terminal selon l'une quelconque des revendications 15 à 19 dans lequel les parois internes du puits sont revêtues d'un revêtement absorbant acoustique (6).

21. Terminal selon l'une quelconque des revendications 15 à 20 dans lequel les moyens de prise de vue et/ou les moyens de restitution sonore sont disposés dans une margelle (17) du puits.

22. Système de communication comprenant au moins un premier terminal (330) selon l'une quelconques des revendications précédentes en un premier site et un second tel terminal (300) en un second site, distant du premier site, reliés par un réseau de communication (R).

23. Système selon la revendication 22 dans lequel plus de deux terminaux sont reliés par le réseau (R) en mode multipoints, le réseau (R) comprenant un Equipement de Visioconférence Multipoints (EVM).

24. Système selon l'une des revendications 22 ou 23, dans lequel les terminaux fonctionnent en continu, de manière à permettre la communication informelle et sans rendez-vous entre des utilisateurs distants les uns des autres.