WO2000013417A1

WO2000013417A1 - Systeme automatique de prise de son et d'images

Info

Publication number: WO2000013417A1
Application number: PCT/FR1999/002047
Authority: WO
Inventors: Jean-Emmanuel Viallet; Raphaël Feraud; Michel Collobert; Olivier Bernier
Original assignee: France Telecom
Priority date: 1998-08-31
Filing date: 1999-08-26
Publication date: 2000-03-09
Also published as: FR2782877B1; EP1110398A1; FR2782877A1; JP2002524936A

Abstract

L'invention concerne un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande (20) de capteurs de prise de vues et de son (10) et des moyens d'analyse de scène (40) pilotant ces moyens de commande (20) pour obtenir un cadrage automatique de la scène filmée. Selon l'invention il est prévu une interface intelligente pour réaliser la sélection (30) d'une personne ou d'un groupe parmi des personnes de la scène filmée, sur commande d'un intervenant, et le cadrage automatique (30) à partir des informations fournies par les moyens d'analyse de la scène (40), sur la personne sélectionnée ou le groupe. Application à la visioconférence.

Description

SYSTEME AUTOMATIQUE DE PRISE DE SON ET D'IMAGES

L'invention concerne un système automatique de prise de son et d'images notamment pour la visioconférence.

Le besoin de tels systèmes se fait sentir surtout dans le domaine de la visioconférence, mais peut également être intéressant dans d'autres situations mettant en oeuvre de la prise de vue avec plusieurs personnes par exemple.

Il s'agit donc de systèmes avec lesquels les prises de son et de vue ne sont pas pilotées par une ou plusieurs personnes (cameraman et ingénieurs du son dans le domaine de la télévision) mais par un équipement automatique.

Dans le cas de la visioconférence, un intervenant a cependant la possibilité avec certains systèmes équipés d'une télécommande de piloter la prise de vue d'une caméra, mais ces systèmes présentent des inconvénients comme on va le voir dans la suite.

En effet, des systèmes de visioconférence sont équipés de moyens de prise de vues et de son, disposant d'équipements (caméras et microphones) qui ne sont pas orientables ou dont l'orientation est commandée par l'intermédiaire d'une télécommande.

Dans des systèmes de visioconférence existants, diverses caméras télécommandables et contrôlables à distance via une communication série sont utilisés.

La télécommande permet de balayer continûment le site et l'azimut de la caméra ainsi que de faire varier continûment le zoom de la caméra. L'orientation de la caméra dans la direction occupée par une personne ou un groupe de personnes est possible, mais malaisée. Des directions de l'espace (aux nombres de six pour les deux caméras ) peuvent être mémorisées par la caméra. La caméra peut être dirigée dans l'une de ces directions par activation d'une touche de la télécommande ou par contrôle du port série. L'intérêt de cette fonction est d'accéder directement à une direction de l'espace sans avoir à agir par combinaison de touches successives (site, azimut) . Ainsi, lorsque les positions de l'espace préenregistrées correspondent à des places autour d'une table, l'utilisateur de la télécommande peut simplement passer d'une personne à une autre.

Il existe également des systèmes reposant sur la localisation acoustique selon lesquels l'orientation d'une caméra est pilotée à partir de l'analyse acoustique de la scène.

L'analyse acoustique de la scène est obtenue à partir de plusieurs microphones qui permettent de déterminer la direction des sources sonores, voire des sources de parole. La direction des sources de parole étant identifiée, elles pourraient être sélectionnées une à une, puis être suivies dynamiquement. La fonction Lime Light de Picture Tel, entreprise qui réalise et commercialise des systèmes de visioconférence, est basée sur la localisation acoustique et permet la détection et le suivi d'une source sonore et l'orientation dynamique d'une caméra.

Il existe également des systèmes reposant sur la localisation visuelle de personnes. Cette localisation visuelle est basée sur l'analyse par traitement d'image issue de la caméra.

Si le champ de la caméra est suffisamment large, et le système performant, toutes les personnes présentes seront détectées. A la différence de la localisation acoustique, la localisation visuelle bénéficie de la permanence des visages à l'image et de l'absence de réflexion (absence de miroirs dans les salles de visioconférence et dans les lieux habituels de prise de vues) . Plusieurs techniques peuvent être utilisées séparément ou non pour détecter des personnes : détection de mouvement, détection de la teinte de la peau, détection de formes ovales, détection globale de visages (par réseau de neurones par exemple) , détection d'attributs de visages tels les yeux, la bouche.

Un certain nombre de systèmes de détection de visages existe et certains associent une fonction de prise de vue automatique. On peut citer à titre d'exemples les systèmes qui sont décrits dans les publications suivantes :

PI - M. Collobert, R. Feraud, G. Le Tourneur, 0. Bernier, J.E. Viallet, Y. Mahieux, D. Collobert, "LISTEN : a System for Locating and Tracking Individual Speakers", 2nd Int. Conf. On Automatic Face and Gesture Récognition, Killington, USA, October 1996, pp 283-288. P2- Hunke, Locating and Tracking human faces with neural network, Technical Report CMU-CS-94-155, 1994.

P3 - Yang, Wu, aibel, Focus of attention in video conferencing, Technical Report CMU-CS-96-150, 1996. Cependant, parmi tous les systèmes qui viennent d'être décrits, un grand nombre présente des inconvénients ou de toute façon ne sont pas satisfaisants pour les besoins qui se font sentir actuellement et qui sont précisés dans la suite. - En effet, les systèmes ayant une fonction de balayage de site, azimut et focale au moyen d'une télécommande présentent les inconvénients suivants :

Pour obtenir un cadre adapté, l'utilisateur doit appuyer successivement sur plusieurs touches de la télécommande (site, azimut et zoom) avant d'obtenir le résultat désiré. Cette fonctionnalité est peu pratique, lente, sujette à des erreurs de manipulation et est donc peu utilisée. Elle est de fait impraticable si l'on souhaite adapter périodiquement ou continûment le cadre de la caméra à une personne qui se déplace ou un ensemble de participants qui naturellement bougent. De la même manière, cette fonctionnalité est également impraticable quand on souhaite changer régulièrement de personne.

- La fonction accès par la télécommande à des directions préenregistrées de l'espace présente les inconvénients suivants :

Le premier inconvénient est lié au fait que les positions doivent être préenregistrées. Elles ne peuvent donc être rapidement continûment modifiées.

Le second inconvénient est de supposer que les personnes occuperont bien les positions préenregistrées et qu'elles n'en bougeront pas. Dans la pratique et même en fixant les chaises au sol, on constate que les personnes bougent et donc sont rarement au centre du cadre, voire sortent du cadre si celui-ci est serré sur la personne. Cet inconvénient est manifeste dans le cadre du système de visioconférence où spontanément les personnes sortent du cadre défini par les directions préenregistrées de l'espace.

L'inconvénient suivant est que cette fonctionnalité d'orientation de la caméra dans une direction de l'espace n'associe pas toujours de focale spécifique. Ainsi, l'utilisateur de la télécommande doit actionner les touches de contrôle de la télécommande pour adapter la taille du cadre à la position effectivement occupée par une personne. En effet, si la personne à tendance à sortir du cadre, en passant à une focale plus courte, cette personne revient dans le cadre sans avoir besoin de changer la direction de l'espace dans laquelle pointe la caméra. Mais alors le cadre n'est plus serré sur la personne et, il y a éventuellement plusieurs personnes dans le cadre.

Lorsqu'il est possible d'associer et de mémoriser une focale à chacune des directions mémorisées de l'espace, cela implique que d'une part, l'utilisateur détermine au préalable la focale qu'il estime adaptée et d'autre part, la mémorise. D'autre part, cett.e focale enregistrée est fixe et donc non adaptative et, comme pour la direction, plus ou moins simplement modifiable.

La fonctionnalité d'accès à des directions prédéterminées de l'espace peut convenir à certaines situations stables (télésurveillance) , mais ne permet pas de s'adapter à une situation particulière. La caméra pointe dans la direction de l'espace, mais ne sait rien du contenu de l'espace, qu'il soit occupé par une personne ou vide.

Un autre inconvénient, secondaire, est le nombre limité à 6 directions de l'espace qui peuvent être mémorisées par la caméra et donc accessibles par la télécommande. Cet inconvénient est en général résolu en mémorisant ces directions dans un ordinateur et en utilisant une télécommande avec un plus grand nombre de touches .

La localisation acoustique présente les inconvénients suivants : En raison de la présence de sources sonores parasites (bruits de chaises, de portes, d'appareils, ...) superposées à la parole des personnes présentes et en raison de réflexions multiples des sources acoustiques sur les murs, la localisation acoustique est souvent peu précise.

D'autre part, l'activité acoustique de parole est par nature intermittente (lorsqu'une personne s'arrête de parler pour écouter) .

Enfin, la localisation acoustique est sensible à l'amplitude de la source sonore.

La localisation visuelle présente les inconvénients suivants : Le principal inconvénient de la localisation visuelle est lié à la complexité des algorithmes, à leur rapidité et à leur robustesse. Néanmoins, plusieurs systèmes sont opérationnels soit sur station de travail soit ordinateur personnel (PC) comme les systèmes développés par le déposant, ou comme dans les publications citées précédemment par le déposant.

La fonction de prise de vue automatique d'un groupe de personnes réalisée par le déposant est, à l'usage, particulièrement utile bien que complexe. Le cadre s'adapte en permanence au nombre et la position des participants d'une visioconférence.

Cependant, il apparaît à l'usage, que bien que plus performant et plus satisfaisant que tous les autres, il soit insuffisant car, comme cela a été dit, des besoins se font sentir sur les possibilités d'effectuer à la demande un cadrage automatique sur l'un ou l'autre des participants et de pouvoir revenir tout simplement au cadre général.

L'invention propose pour cela une interface intelligente apte à réaliser la sélection d'une personne (ou d'un groupe de personnes) parmi les personnes de la scène filmée, sur la commande d'un intervenant, et le cadrage automatique à partir des informations fournies par l'analyse de la scène, sur la personne sélectionnée (ou le groupe de personne) .

L'invention a donc pour objet un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande de capteurs de prise de vues et de son et des moyens d'analyse de scène pilotant ces moyens de commande pour obtenir un cadrage automatique de la scène filmée.

Le système comporte des moyens de sélection d'une personne ou d'un groupe de personnes parmi les personnes de la scène filmée et des moyens de cadrage automatique à partir des informations fournies par les moyens d'analyse de la scène, sur la personne sélectionnée ou le groupe de personne.

L'invention a plus particulièrement pour objet, un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande des capteurs de prise de vues et de son , des moyens d'analyse de scène pour fournir des signaux de position aux moyens de commande, des moyens de sélection d'une personne ou d'un groupe parmi des personnes de la scène filmée,

-principalement caractérisé en ce que les moyens de sélection comportent une interface physique comprenant une commande à distance apte à permettre la sélection de l'une quelconque des personnes de la scène ou d'un groupe, pour avoir un cadrage automatique autour de cette personne ou du groupe, ou de sélectionner l'ensemble des personnes pour avoir un cadrage général de la scène ;

- et en ce que les moyens de cadrage comportent une interface logique apte à établir une correspondance entre la personne sélectionnée par la commande à distance et les informations de position issues de l'analyse de scène pour fournir aux moyens de commande les informations de position de cette personne ou du groupe par rapport à la scène filmée. Selon un mode de réalisation de l'invention, la commande à distance est une télécommande universelle, activant un dispositif apte à émettre des signaux de commande à l'interface logique

Les signaux émis par la télécommande peuvent être infra rouge ou électromagnétiques.

Les signaux de commande de ladite télécommande peuvent être reçus et ré-émis par un émetteur- récepteur .

Les signaux de commande de ladite télécommande peuvent être reçus et ré-émis par un dispositif de reconnaissance de la parole ou de reconnaissance de geste

La commande à distance peut être réalisée par la télécommande de la caméra d'analyse d'image, les signaux de commande de ladite télécommande étant reçus et ré-émis par la caméra d'analyse vers l'interface logique .

Selon un autre mode de réalisation, la commande à distance est une télécommande universelle, les signaux de commande de ladite télécommande étant reçus et réémis par la caméra d'analyse.

Selon un autre mode de réalisation, la commande à distance comprend une interface graphique.

La commande à distance comporte en outre , dans ce cas, un écran sur lequel sont visualisées la scène et les différentes zones sélectionnables .

La commande à distance comporte un périphérique d'entrée/sortie d'ordinateur pour sélectionner les zones repérées. Dans un mode de fonctionnement, il peut être prévu que les moyens d'analyse de scène reçoivent un signal d'analyse local (A), que les moyens de sélection permettent alors de sélectionner une personne ou un groupe de personnes de la scène filmée localement et que les moyens de cadrage automatique utilisent les informations de la scène filmée localement.

Dans un autre mode de fonctionnement, il peut être prévu que les moyens d'analyse reçoivent un signal (A¹) d'un système distant pour ou correspondant à l'analyse de scène et que les moyens de sélection permettent alors de sélectionner une personne ou un groupe de personnes de la scène filmée à distance et les moyens de cadrage automatique permettent de piloter le cadrage de la scène filmée à distance, les signaux de commande étant transportés vers le système distant.

D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description qui est donnée à titre indicatif et nullement limitatif et en regard des dessins annexés sur lesquels :

- la figure 1, représente un schéma de principe de 1 ' invention, - la figure 2, représente un schéma plus détaillé de l'invention,

- la figure 3, représente un mode de réalisation particulier pour l' interface physique,

- la figure 4, représente un autre mode de réalisation pour l'interface physique, la figure 5, représente un autre mode de réalisation de l'interface physique, la figure 6, représente un autre mode de réalisation de l'interface physique, la figure 7, représente un autre mode de réalisation de l'interface physique.

Sur la figure 1 on a représenté de façon schématique un système automatique de prise de son et d'images dans lequel on dispose de ressources audiovisuelles 10 pour filmer et capter le son d'une scène 50.

Dans le cas d'un système de visioconférence la scène est composée d'une ou plusieurs personnes dites intervenants Pl-Pn sur un site, désirant communiquer avec d'autres personnes d'un site distant.

Les ressources audiovisuelles 10 sont constituées par des capteurs audio et visuels. Les capteurs audio sont par exemple une série de microphones placés à proximité des intervenants. Les capteurs vidéo sont constitués par une ou plusieurs caméras filmant la scène.

Les ressources audiovisuelles 10 sont pilotées par un dispositif de commande 20 classique, apte à fournir les signaux de commande aux capteurs 10 selon les informations reçues en entrée par l'interface 30 comme cela est détaillé dans la suite.

Conformément à l'invention, les informations reçues en entrée sont fournies par l'interface 30 à partir du dispositif d'analyse de scène 40 et de la sélection effectuée par un intervenant.

Le dispositif d'analyse de scène peut être soit audio, soit visuel, soit audiovisuel associé à des capteurs visuels ou audiovisuels.

Dans l'exemple de réalisation qui est donné, ce dispositif est un dispositif visuel existant. A cette fin, on utilise une caméra d'analyse fixe 60, (la caméra peut être mobile) , qui permet de fournir le signal requis servant à effectuer une analyse de la scène visuelle observée.

Le dispositif d'analyse de la scène comprend par conséquent à cet effet, la caméra 60 et des moyens de traitement 40 du signal A fourni par cette caméra. Ces moyens sont réalisés par exemple par un microordinateur ou une station de travail équipée d'un programme spécifique, existant, d'analyse de scène.

De façon plus précise selon l'exemple de réalisation mis en pratique, les visages des personnes présentes dans le champ visuel, sont détectés par un réseau de neurones, puis ledit programme met en oeuvre un algorithme qui suit les visages détectés. D'autres techniques connues peuvent êtres utilisées. Selon un autre mode de réalisation, on peut utiliser un dispositif d'analyse de la scène 40 avec une caméra mobile.

Selon un troisième mode de réalisation, on peut utiliser ou réaliser un dispositif d'analyse de la scène utilisant plusieurs caméras fixes ou mobiles.

Les différents capteurs 10 sont commandés par un dispositif de commande 20 qui reçoit des signaux de commande de l'interface 30 conformément à la présente invention . Dans le mode de réalisation qui a été réalisé, illustré par le schéma de la figure 2, il s'agit d'un dispositif de commande 20 d'une caméra motorisée 11 qui assure la prise de vue et d'une antenne acoustique 12 qui assure la prise de son. On va détailler ci-dessous, la prise de vue et de son pour un ensemble de personnes et pour une seule personne, ce qui correspond à des réalisations effectives pour le déposant. Les mêmes techniques peuvent être mises en oeuvre pour une prise de vue et de son concernant un groupe de personnes ; le groupe est un sous-ensemble de l'ensemble des personnes. Dans le mode de réalisation préféré qui a été réalisé, l'analyse de la scène est visuelle, c'est-à- dire que l'on détermine la position des personnes mais on ignore si elles parlent.

Dans un autre mode de réalisation impliquant une analyse audiovisuelle (incluant donc le son ) les dispositifs de prise de son seront sélectionnés à partir des informations audiovisuelles.

Lorsque l'utilisateur du système demande, à travers l'interface 30, une prise de vue sur l'ensemble de personnes Pl-Pn, le dispositif de commande 20 commande la caméra 11 de manière à ce que l'ensemble des personnes, présentes dans le champ d'analyse soient cadrées, en respectant les règles de l'art de la prise de vue dans la mesure où les contraintes de la caméra 11 l'autorisent.

Lorsque l'utilisateur du système demande, à travers l'interface 30, une prise de vue sur une personne en particulier, le dispositif 20 commande la caméra 11 de manière à ce que la personne, en respect avec les règles de la prise de vue, soit latéralement centrée, que ses yeux soient approximativement au tiers supérieur de l'image par exemple.

Dans un mode de réalisation mis en oeuvre, la personne sélectionnée étant encadrée par un ou plusieurs voisins, la prise de vue cherche à isoler cette personne des autres à l'image, dans la mesure où les contraintes liées à la caméra et aux règles de la prise de vue l'autorisent. Lorsque l'utilisateur demande, à travers l'interface 30 une prise de son sur l'ensemble des personnes, le dispositif 20 commande la prise de son de manière à capter le champ sonore des différents participants. Ce champ sonore peut être obtenu de différentes manières :

1) A partir d'un champ large réalisé par l'antenne acoustique 12 ;

2) Par sommation des champs sonores issus de différents dispositifs de prise de son (microphones ou antenne acoustique) , dispositifs sélectionnés à partir de l'analyse de la scène.

Lorsque l'utilisateur demande, à travers l'interface 30, une prise de son sur une personne, le dispositif 20 commande la prise de son de manière à capter le champ sonore des différentes personnes. Ce champ sonore peut être obtenu de différentes manières :

1) A partir du champ étroit et orientable de l'antenne acoustique 12. C'est le mode de réalisation réalisé décrit précédemment ;

2) A partir d'un ou plusieurs dispositifs de prise de son, dispositifs sélectionnés à partir des informations visuelles ou des informations audiovisuelles . L'interface 30 permet à l'utilisateur du système d'obtenir une prise de vue et de son conformes à sa demande (un plan large sur l'ensemble des personnes, un plan serré sur une personne particulière) . L'envoi d'une commande issue de l'interface, déclenche la commande d'orientation des capteurs de prise de son et de vue, en fonction de la scène audiovisuelle, analysée par le dispositif d'analyse de scène.

A cette fin, l'interface comporte une interface logique 31 et une interface physique 32. L' interface physique 32 peut être réalisée selon différents modes de réalisation décrits dans la suite à propos des figures 3 à 7.

L'interface logique 31 est, selon un mode de réalisation préférentiel, constituée par un programme chargé dans le système de traitement du signal d'analyse de scène 40. Cette interface logique 31 récupère des informations de position des personnes sur la scène issues de traitement d'analyse de scène et établit une correspondance entre ces informations de position et les informations de sélection données à travers l'interface physique par l'intervenant.

Cette interface logique 31 interprète (c'est à dire qu'elle décode) les informations reçues de l'unité 40 pour fournir des signaux de commande de position interprétables par le dispositif de commande 20 afin d'effectuer le cadrage désiré autour de la personne sélectionnée ou du groupe.

Plusieurs modes de réalisation de l'interface physique 32 sont donc donnés dans la suite.

Un premier mode de réalisation comprend une interface graphique 32A installée sur un microordinateur ou station de travail P comme représenté sur la figure 3. Avec une souris 320, l'utilisateur choisit d'obtenir une prise de vue et de son sur l'ensemble des personnes de la scène, en cliquant sur une fenêtre nommée "Ensemble", référencé E. Avec une souris, l'utilisateur choisit d'obtenir une prise de vue et de son sur une personne de la scène, en cliquant sur une fenêtre portant le numéro de la personne désirée Pl-Pn ou du groupe de personnes.

Sur cette interface graphique 32A le libellé en chiffre des personnes peut être remplacé par l'image de la personne 321 obtenue par le système d'analyse. Cette image est obtenue soit à un moment fixé par l'utilisateur du système, soit elle est automatiquement rafraîchie au cours de la réunion. Une interface graphique 32A avec l'image des personnes 321 est plus ergonomique pour l'utilisateur, car l'interface affiche les prises de vues que peut sélectionner l'utilisateur.

On peut également prévoir un affichage par incrustation sur l'écran de visioconférence, en format réduit, de l'image des personnes présentes avec des numéros, à la visioconférence et, la sélection alors au moyen d'une télécommande.

Dans un autre mode de réalisation, la souris 320 peut être remplacée par un écran tactile et/ou par un dispositif de reconnaissance de la parole R.

Un autre mode de réalisation réalisé pour l'interface physique 32 est représenté par la figure 4. Selon ce mode de réalisation, on détourne l'usage de la télécommande 32B de la caméra d'analyse de la scène visuelle 60 pour permettre à l'utilisateur du système d'envoyer des signaux de commande à la caméra 60. Le détournement et l'utilisation de cette télécommande a été réalisé pour des raisons de facilité et de rapidité de mise en oeuvre.

La télécommande infrarouge 32B est en communication (commandes CDE) avec la caméra d'analyse 60. Cette télécommande de caméra d'analyse dispose d'un certain nombre de touches dont notamment des touches correspondant à des mémoires de position et une touche "home" H correspondant à la position de repos de la caméra.

Les mémoires de position ne sont pas utilisées en tant que telles pour pointer des directions de l'espace, mais on n'utilise que le fait que les touches sont activées.

Les positions des mémoires de position sont préalablement initialisées par le système, à la position de repos de la caméra. La caméra d'analyse étant fixe dans un des modes de réalisation, le déclenchement des positions 1 à 6 ou de la touche "home" H n'a pas d'effet sur la position de cette caméra d'analyse 60. Ainsi, en appuyant par exemple sur la touche "home" H, l'utilisateur déclenche via les dispositifs 60, 40, 30 et 20, une prise de vue et de son sur l'ensemble des personnes présentes dans la scène.

Et, en appuyant sur l'une des touches de 1 à 6 correspondant à la mémoire des positions, l'utilisateur déclenche via les dispositifs 60, 40, 30, et 20, une prise de vue sur la personne correspondante (6 personnes maximum dans cette version) .

D'autres télécommandes peuvent être utilisées qu'elles utilisent ou pas la caméra d'analyse en tant que relais de transmission.

On peut par exemple utiliser une télécommande à programmation universelle à la place de la télécommande de la caméra d'analyse, pour permettre à l'utilisateur de sélectionner la prise de vue et de son. Ce mode de réalisation n'est pas illustré car il correspond au schéma de la figure 4 à ceci prés que la télécommande 32B est dans ce cas une télécommande universelle.

Dans une phase préparatoire du matériel en vue de mettre en oeuvre l'application, on aura au préalable enregistré dans la télécommande universelle certains des codes de la caméra d'analyse (mémoire de position, "home", ...). Lors de l'utilisation effective de la télécommande 32B, les signaux infrarouges envoyés par la télécommande sont décodés et analysés par l'interface logique 31.

L'utilisation d'une télécommande universelle, permet d'une part, de rendre indisponibles certaines commandes de la caméra d'analyse 60 (la télécommande universelle n'apprend pas les codes correspondants), et d'autre part, d'avoir des touches dont le libellé correspond mieux à la demande de l'utilisateur : Ainsi, des touches "+ " et "-" permettent à l'utilisateur de zapper d'une personne à une autre, comme il a l'habitude de le faire avec les chaînes de télévision.

On va se reporter maintenant au schéma de la figure 5 qui correspond à un autre mode de réalisation conforme à l'invention. Afin de ne pas dépendre de la caméra d'analyse en tant que relais entre la télécommande et l'interface 31 et pour offrir à l'utilisateur une palette de commande plus riche, on peut utiliser un dispositif émetteur récepteur 70 du commerce. Cet émetteur-récepteur 70 capte des signaux infrarouges CDE issus de la télécommande 32B et renvoie des codes vers l'interface logique 31, par exemple à travers un port de communication RS232, connecté à l'interface 30. La figure 6 illustre un mode de réalisation selon lequel l'interface physique 32 comporte une commande à distance par la voix 32B associée à un dispositif de reconnaissance de la parole 80 existant.

La figure 7 illustre un mode de réalisation selon lequel l'interface physique 32 comporte une commande à distance par le geste 32B associée à un dispositif de reconnaissance du geste 90 existant.

Les précédents modes de réalisation de l'interface permettent à un utilisateur de sélectionner les prises de vue et de son obtenues avec les capteurs physiquement présents dans la salle où se trouve l'utilisateur. Cela est symbolisé par le signal A

(local) servant à l'analyse de la scène sur la figure 1.

Dans un autre mode de réalisation, les interfaces 31, 32 précédemment décrites permettent de commander les capteurs de prise de vue et de son physiquement présents dans une salle distante ( où ne se trouve pas l'utilisateur), la salle avec laquelle il est en visioconférence par exemple.

Ainsi, l'utilisateur participant à une visioconférence, sélectionne et obtient les prises de vue et de son désirées. Pour cela, le signal A' (distant) pour l'analyse de scène ou correspondant à l'analyse (signal déjà analysé par un système distant dépourvu du signal vidéo) sera appliqué à une entrée du dispositif d'analyse 40.

Dans ce mode de réalisation, les signaux C émis par la télécommande infrarouge ou par l'interface graphique (et les signaux nécessaires à la constitution des images de l'interface graphique) sont transportés avec l'image, le son et les autres signaux de la visioconférence . Dans ce mode de réalisation, l'éventuel conflit de commande des capteurs entre la salle locale et la salle distante doit être géré.

Claims

REVENDICATIONS

1. Système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande (20) des capteurs de prise de vues et de son (10), des moyens d'analyse de scène (40) pour fournir des signaux de position aux moyens de commande (20), des moyens de sélection (30) d'une personne ou d'un groupe parmi des personnes de la scène filmée,

- caractérisé en ce que les moyens de sélection comportent une interface physique (32) comprenant une commande à distance (32A, 32B) apte à permettre la sélection de l'une quelconque des personnes de la scène ou d'un groupe, pour avoir un cadrage automatique autour de cette personne ou du groupe, ou de sélectionner l'ensemble des personnes pour avoir un cadrage général de la scène ;

- et en ce que les moyens de cadrage comportent une interface logique (31) apte à établir une correspondance entre la personne sélectionnée par la commande à distance (32A ou 32B) et les informations de position issues de l'analyse de scène pour fournir aux moyens de commande (20) les informations de position de cette personne ou du groupe par rapport à la scène filmée .

2. Système selon la revendication 1, caractérisé en ce que la commande à distance (32B) est une télécommande universelle, activant un dispositif apte à émettre des signaux de commande à l'interface logique (31) .

3. Système selon la revendication 2, caractérisé en ce que les signaux de commande de ladite télécommande (32B) sont reçus et ré-émis par un émetteur-récepteur (70) .

4. Système selon la revendication 2, caractérisé en ce que les signaux de commande de ladite télécommande

(32B) sont reçus et ré-émis par un dispositif de reconnaissance de la parole (80) ou de reconnaissance de geste (90) .

5. Système selon la revendication 1, caractérisé en ce que la commande à distance (32B) est la télécommande de la caméra d'analyse d'image (60), les signaux de commande de ladite télécommande (32) étant reçus et réémis par la caméra d'analyse (60) vers l'interface logique (31) .

6. Système selon la revendication 1, caractérisé en ce que commande à distance (32B) est une télécommande universelle, les signaux de commande de ladite télécommande (32B) étant reçus et ré-émis par la caméra d' analyse (60) .

7. Système selon la revendication 1, caractérisé en ce que la commande à distance comprend une interface graphique (32A) .

8. Système de visioconférence selon la revendication 7, caractérisé en ce que la commande à distance comporte en outre un écran (321) sur lequel sont visualisées la scène et les différentes zones sélectionnables .

9. Système selon la revendication 7, caractérisé en ce que la commande à distance comporte un périphérique (320) d'entrée/sortie d'ordinateur pour sélectionner les zones repérées.

10. Système de visioconférence selon l'une quelconque des revendications précédentes, selon lequel les moyens d'analyse de scène reçoivent un signal d'analyse local (A), caractérisé en ce que les moyens de sélection permettent de sélectionner une personne ou un groupe de personnes de la scène filmée localement et en ce que, les moyens de cadrage automatique utilisent les informations de la scène filmée localement.

11. Système de visioconférence selon l'une quelconque des revendications précédentes recevant un signal (A') d'un système distant pour ou correspondant à l'analyse de scène, caractérisé en ce que les moyens de sélection permettent de sélectionner une personne ou un groupe de personnes de la scène filmée à distance et en ce que les moyens de cadrage automatique permettent de piloter le cadrage de la scène filmée à distance, les signaux de commande étant transportés vers le système distant.