WO2000013417A1 - Systeme automatique de prise de son et d'images - Google Patents

Systeme automatique de prise de son et d'images Download PDF

Info

Publication number
WO2000013417A1
WO2000013417A1 PCT/FR1999/002047 FR9902047W WO0013417A1 WO 2000013417 A1 WO2000013417 A1 WO 2000013417A1 FR 9902047 W FR9902047 W FR 9902047W WO 0013417 A1 WO0013417 A1 WO 0013417A1
Authority
WO
WIPO (PCT)
Prior art keywords
remote control
scene
person
people
analysis
Prior art date
Application number
PCT/FR1999/002047
Other languages
English (en)
Inventor
Jean-Emmanuel Viallet
Raphaël Feraud
Michel Collobert
Olivier Bernier
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP99940237A priority Critical patent/EP1110398A1/fr
Priority to JP2000568257A priority patent/JP2002524936A/ja
Publication of WO2000013417A1 publication Critical patent/WO2000013417A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • the invention relates to an automatic sound and image pickup system, in particular for videoconferencing.
  • videoconferencing systems are equipped with recording and sound means, having equipment (cameras and microphones) which are not orientable or whose orientation is controlled by means of a remote control.
  • the remote control makes it possible to continuously scan the site and the azimuth of the camera as well as to continuously vary the zoom of the camera. Orientation of the camera in the direction occupied by a person or a group of people is possible, but difficult.
  • Space directions (six for the two cameras) can be stored by the camera. The camera can be directed in one of these directions by pressing a button on the remote control or by controlling the serial port. The interest of this function is to directly access a direction of space without having to act by combination of successive keys (site, azimuth).
  • the user of the remote control can simply switch from one person to another.
  • the acoustic analysis of the scene is obtained from several microphones which make it possible to determine the direction of the sound sources, even of the sources of speech.
  • the direction of the speech sources being identified, they could be selected one by one, then be followed dynamically.
  • the Lime Light function of Picture Tel a company that manufactures and markets videoconferencing systems, is based on acoustic localization and allows the detection and monitoring of a sound source and the dynamic orientation of a camera.
  • the first drawback is related to the fact that the positions must be prerecorded. They cannot therefore be rapidly changed continuously.
  • the second disadvantage is to assume that people will occupy the prerecorded positions well and will not move from them. In practice and even by fixing the chairs to the floor, we see that people move and therefore are rarely in the center of the frame, or even get out of the frame if it is tight on the person. This drawback is manifest in the context of the videoconferencing system where people spontaneously leave the framework defined by the pre-recorded directions of space.
  • the functionality of access to predetermined directions of space may be suitable for certain stable situations (remote monitoring), but does not make it possible to adapt to a particular situation.
  • the camera points in the direction of space, but knows nothing about the content of the space, whether occupied by a person or empty.
  • Another drawback, secondary, is the number limited to 6 directions of space which can be memorized by the camera and therefore accessible by the remote control. This disadvantage is generally solved by memorizing these directions in a computer and by using a remote control with a greater number of keys.
  • acoustic speech activity is by nature intermittent (when a person stops speaking to listen).
  • the acoustic location is sensitive to the amplitude of the sound source.
  • Visual localization has the following drawbacks: The main drawback of visual localization is related to the complexity of the algorithms, their speed and their robustness. However, several systems are operational either on workstation or personal computer (PC) like the systems developed by the depositor, or as in the publications cited previously by the depositor.
  • PC personal computer
  • the automatic shooting function of a group of people performed by the depositor is, in use, particularly useful although complex.
  • the framework constantly adapts to the number and position of participants in a videoconference.
  • the invention therefore proposes an intelligent interface capable of carrying out the selection of a person (or a group of people) from among the people on the filmed scene, on the order of a speaker, and the automatic framing from information provided by the scene analysis, on the selected person (or group of people).
  • the subject of the invention is therefore an automatic sound and image pickup system, in particular for videoconferencing, comprising means for controlling recording and sound sensors and scene analysis means controlling these control means for obtain an automatic framing of the filmed scene.
  • the system includes means for selecting a person or a group of people from among the people on the filmed scene and automatic framing means from the information provided by the scene analysis means, on the selected person. or the group of people.
  • the subject of the invention is more particularly, an automatic system for taking sound and images, in particular for videoconferencing, comprising means for controlling photographic and sound sensors, scene analysis means for supplying signals. position to the control means, means for selecting a person or a group from among people on the filmed scene,
  • the selection means comprise a physical interface comprising a remote control able to allow the selection of any one of the people on the scene or a group, to have an automatic framing around this person or of the group, or to select all the people to have a general framing of the scene;
  • the framing means comprise a logical interface capable of establishing a correspondence between the person selected by the command to distance and the position information from the scene analysis to provide the control means with the position information of this person or group relative to the filmed scene.
  • the remote control is a universal remote control, activating a device capable of transmitting control signals to the logical interface
  • the signals emitted by the remote control can be infrared or electromagnetic.
  • the control signals from said remote control can be received and re-transmitted by a transceiver.
  • the control signals of said remote control can be received and re-emitted by a speech recognition or gesture recognition device.
  • the remote control can be carried out by the remote control of the image analysis camera, the control signals of said remote control being received and re-transmitted by the analysis camera to the logical interface.
  • the remote control is a universal remote control, the control signals of said remote control being received and retransmitted by the analysis camera.
  • the remote control comprises a graphical interface.
  • the remote control also comprises, in this case, a screen on which the scene and the various selectable zones are viewed.
  • the remote control includes a computer input / output device to select the areas identified.
  • provision may be made for the scene analysis means to receive a local analysis signal (A) and for the selection means to select a person or a group of people from the scene filmed locally. and that the automatic framing means use the information from the scene filmed locally.
  • A local analysis signal
  • the automatic framing means use the information from the scene filmed locally.
  • the analysis means receive a signal (A 1 ) from a remote system for or corresponding to the scene analysis and that the selection means then make it possible to select a person or a group of people from the scene filmed remotely and the automatic framing means make it possible to control the framing of the scene filmed remotely, the control signals being transported to the remote system.
  • FIG. 1 represents a block diagram of the invention
  • FIG. 2 represents a more detailed diagram of the invention
  • FIG. 3 represents a particular embodiment for the physical interface
  • FIG. 4 represents another embodiment for the physical interface
  • FIG. 5 represents another embodiment of the physical interface
  • FIG. 6 represents another embodiment of the physical interface
  • FIG. 7 shows another embodiment of the physical interface.
  • FIG. 1 schematically shows an automatic sound and image pick-up system in which there are audiovisual resources 10 for filming and capturing the sound of a scene 50.
  • the scene is made up of one or more people called Pl-Pn speakers on a site, wishing to communicate with other people from a remote site.
  • the audiovisual resources 10 are constituted by audio and visual sensors.
  • the audio sensors are for example a series of microphones placed close to the speakers.
  • the video sensors consist of one or more cameras filming the scene.
  • the audiovisual resources 10 are controlled by a conventional control device 20, capable of supplying the control signals to the sensors 10 according to the information received at the input by the interface 30 as detailed below.
  • the information received as input is provided by the interface 30 from the scene analysis device 40 and from the selection made by a speaker.
  • the scene analysis device can be either audio, visual or audiovisual associated with visual or audiovisual sensors.
  • this device is an existing visual device.
  • a fixed analysis camera 60 is used (the camera can be mobile), which makes it possible to provide the signal required to perform an analysis of the visual scene observed.
  • the scene analysis device therefore comprises for this purpose, the camera 60 and means 40 for processing the signal A supplied by this camera.
  • These means are made for example by a microcomputer or a work station equipped with a specific, existing program, for scene analysis.
  • the faces of the people present in the visual field are detected by a neural network, then said program implements an algorithm which follows the detected faces.
  • Other known techniques can be used.
  • a scene analysis device 40 can be used with a mobile camera.
  • a scene analysis device using several fixed or mobile cameras can be used or produced.
  • the various sensors 10 are controlled by a control device 20 which receives control signals from the interface 30 in accordance with the present invention.
  • a control device 20 which receives control signals from the interface 30 in accordance with the present invention.
  • it is a device 20 for controlling a motorized camera 11 which takes the picture and an acoustic antenna 12 which provides sound recording.
  • a motorized camera 11 which takes the picture
  • an acoustic antenna 12 which provides sound recording.
  • the shooting and sound for a set of people and for a single person which corresponds to actual achievements for the depositor.
  • the same techniques can be used for shooting and sound concerning a group of people; the group is a subset of all people.
  • the analysis of the scene is visual, that is to say that the position of the people is determined but it is not known whether they are speaking.
  • the sound pickup devices will be selected from audiovisual information.
  • the control device 20 controls the camera 11 so that all of the people, present in the field of analysis are framed, respecting the rules of the art of shooting as far as the constraints of the camera 11 allow.
  • the device 20 controls the camera 11 so that the person, in compliance with the rules of the shooting , or laterally centered, that his eyes are approximately at the upper third of the image for example.
  • the shooting seeks to isolate this person from others in the image, insofar as the constraints linked to the camera and the rules of the shooting authorizes it.
  • the device 20 controls the sound recording so as to capture the sound field of the different participants. This sound field can be obtained in different ways:
  • the device 20 controls the sound recording so as to capture the sound field of the different people.
  • This sound field can be obtained in different ways:
  • the interface 30 allows the user of the system to obtain a shot and sound in accordance with his request (a wide shot of all of the people, a tight shot of a particular person).
  • the sending of a command from the interface triggers the orientation command of the sound and image pickup sensors, as a function of the audiovisual scene, analyzed by the scene analysis device.
  • the interface includes a logical interface 31 and a physical interface 32.
  • the physical interface 32 can be produced according to different embodiments described below in connection with FIGS. 3 to 7.
  • the logic interface 31 is, according to a preferred embodiment, constituted by a program loaded in the system for processing the scene analysis signal 40. This logic interface 31 recovers position information of the people on the scene resulting from processing scene analysis and establishes a correspondence between this position information and the selection information given through the physical interface by the operator.
  • This logic interface 31 interprets (that is to say it decodes) the information received from the unit 40 to supply position control signals interpretable by the control device 20 in order to carry out the desired framing around the person selected or group.
  • a first embodiment comprises a graphic interface 32A installed on a microcomputer or workstation P as shown in FIG. 3.
  • a mouse 320 the user chooses to obtain a picture and sound recording on all of the people on the scene, by clicking on a window named "Ensemble", referenced E.
  • the user chooses to obtain a shot and sound on a person on the scene, by clicking on a window carrying the number of the desired person Pl-Pn or of the group of people.
  • the wording in figures of the people can be replaced by the image of person 321 obtained by the analysis system. This image is obtained either at a time set by the system user, or it is automatically refreshed during the meeting.
  • a graphical interface 32A with the image of the people 321 is more ergonomic for the user, because the interface displays the shots that the user can select.
  • the mouse 320 can be replaced by a touch screen and / or by a speech recognition device R.
  • FIG. 4 Another embodiment produced for the physical interface 32 is represented by FIG. 4.
  • the use of the remote control 32B of the visual scene analysis camera 60 is diverted to allow the user of the system to send control signals to camera 60.
  • the diversion and use of this remote control has been carried out for reasons of ease and speed of implementation.
  • the infrared remote control 32B is in communication (CDE commands) with the analysis camera 60.
  • This analysis camera remote control has a certain number of keys including in particular keys corresponding to position memories and a "home" key H corresponding to the rest position of the camera.
  • Position memories are not used as such to point directions of space, but we only use the fact that the keys are activated.
  • the positions of the position memories are initialized beforehand by the system, at the rest position of the camera.
  • the analysis camera being fixed in one of the embodiments, the triggering of positions 1 to 6 or of the "home” key H has no effect on the position of this analysis camera 60.
  • the user in pressing for example the "home” button H, the user triggers via the devices 60, 40, 30 and 20, a shooting and sound on all the people present in the scene.
  • the user by pressing one of the keys from 1 to 6 corresponding to the position memory, the user triggers via the devices 60, 40, 30, and 20, a shot on the corresponding person (6 people maximum in this version) .
  • This embodiment is not illustrated because it corresponds to the diagram in FIG. 4 except that the remote control 32B is in this case a universal remote control.
  • FIG. 5 corresponds to another embodiment according to the invention.
  • This transceiver 70 receives infrared CDE signals from the remote control 32B and returns codes to the logical interface 31, for example through an RS232 communication port, connected to the interface 30.
  • FIG. 6 illustrates a mode of embodiment according to which the physical interface 32 comprises a remote control by voice 32B associated with an existing speech recognition device 80.
  • FIG. 7 illustrates an embodiment according to which the physical interface 32 comprises a remote control by the gesture 32B associated with a device for recognizing the existing gesture 90.
  • the interfaces 31, 32 previously described make it possible to control the shooting and sound sensors physically present in a remote room (where the user is not located), the room with which he is in videoconferencing for example.
  • the user participating in a videoconference selects and obtains the shots and his desired.
  • the signal A '(remote) for scene analysis or corresponding to the analysis will be applied to an input of the analysis device 40.
  • the signals C emitted by the infrared remote control or by the graphical interface are transported with the image, the sound and the other signals of videoconferencing.
  • the possible sensor control conflict between the local room and the remote room must be managed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

L'invention concerne un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande (20) de capteurs de prise de vues et de son (10) et des moyens d'analyse de scène (40) pilotant ces moyens de commande (20) pour obtenir un cadrage automatique de la scène filmée. Selon l'invention il est prévu une interface intelligente pour réaliser la sélection (30) d'une personne ou d'un groupe parmi des personnes de la scène filmée, sur commande d'un intervenant, et le cadrage automatique (30) à partir des informations fournies par les moyens d'analyse de la scène (40), sur la personne sélectionnée ou le groupe. Application à la visioconférence.

Description

SYSTEME AUTOMATIQUE DE PRISE DE SON ET D'IMAGES
L'invention concerne un système automatique de prise de son et d'images notamment pour la visioconférence.
Le besoin de tels systèmes se fait sentir surtout dans le domaine de la visioconférence, mais peut également être intéressant dans d'autres situations mettant en oeuvre de la prise de vue avec plusieurs personnes par exemple.
Il s'agit donc de systèmes avec lesquels les prises de son et de vue ne sont pas pilotées par une ou plusieurs personnes (cameraman et ingénieurs du son dans le domaine de la télévision) mais par un équipement automatique.
Dans le cas de la visioconférence, un intervenant a cependant la possibilité avec certains systèmes équipés d'une télécommande de piloter la prise de vue d'une caméra, mais ces systèmes présentent des inconvénients comme on va le voir dans la suite.
En effet, des systèmes de visioconférence sont équipés de moyens de prise de vues et de son, disposant d'équipements (caméras et microphones) qui ne sont pas orientables ou dont l'orientation est commandée par l'intermédiaire d'une télécommande.
Dans des systèmes de visioconférence existants, diverses caméras télécommandables et contrôlables à distance via une communication série sont utilisés.
La télécommande permet de balayer continûment le site et l'azimut de la caméra ainsi que de faire varier continûment le zoom de la caméra. L'orientation de la caméra dans la direction occupée par une personne ou un groupe de personnes est possible, mais malaisée. Des directions de l'espace (aux nombres de six pour les deux caméras ) peuvent être mémorisées par la caméra. La caméra peut être dirigée dans l'une de ces directions par activation d'une touche de la télécommande ou par contrôle du port série. L'intérêt de cette fonction est d'accéder directement à une direction de l'espace sans avoir à agir par combinaison de touches successives (site, azimut) . Ainsi, lorsque les positions de l'espace préenregistrées correspondent à des places autour d'une table, l'utilisateur de la télécommande peut simplement passer d'une personne à une autre.
Il existe également des systèmes reposant sur la localisation acoustique selon lesquels l'orientation d'une caméra est pilotée à partir de l'analyse acoustique de la scène.
L'analyse acoustique de la scène est obtenue à partir de plusieurs microphones qui permettent de déterminer la direction des sources sonores, voire des sources de parole. La direction des sources de parole étant identifiée, elles pourraient être sélectionnées une à une, puis être suivies dynamiquement. La fonction Lime Light de Picture Tel, entreprise qui réalise et commercialise des systèmes de visioconférence, est basée sur la localisation acoustique et permet la détection et le suivi d'une source sonore et l'orientation dynamique d'une caméra.
Il existe également des systèmes reposant sur la localisation visuelle de personnes. Cette localisation visuelle est basée sur l'analyse par traitement d'image issue de la caméra.
Si le champ de la caméra est suffisamment large, et le système performant, toutes les personnes présentes seront détectées. A la différence de la localisation acoustique, la localisation visuelle bénéficie de la permanence des visages à l'image et de l'absence de réflexion (absence de miroirs dans les salles de visioconférence et dans les lieux habituels de prise de vues) . Plusieurs techniques peuvent être utilisées séparément ou non pour détecter des personnes : détection de mouvement, détection de la teinte de la peau, détection de formes ovales, détection globale de visages (par réseau de neurones par exemple) , détection d'attributs de visages tels les yeux, la bouche.
Un certain nombre de systèmes de détection de visages existe et certains associent une fonction de prise de vue automatique. On peut citer à titre d'exemples les systèmes qui sont décrits dans les publications suivantes :
PI - M. Collobert, R. Feraud, G. Le Tourneur, 0. Bernier, J.E. Viallet, Y. Mahieux, D. Collobert, "LISTEN : a System for Locating and Tracking Individual Speakers", 2nd Int. Conf. On Automatic Face and Gesture Récognition, Killington, USA, October 1996, pp 283-288. P2- Hunke, Locating and Tracking human faces with neural network, Technical Report CMU-CS-94-155, 1994.
P3 - Yang, Wu, aibel, Focus of attention in video conferencing, Technical Report CMU-CS-96-150, 1996. Cependant, parmi tous les systèmes qui viennent d'être décrits, un grand nombre présente des inconvénients ou de toute façon ne sont pas satisfaisants pour les besoins qui se font sentir actuellement et qui sont précisés dans la suite. - En effet, les systèmes ayant une fonction de balayage de site, azimut et focale au moyen d'une télécommande présentent les inconvénients suivants :
Pour obtenir un cadre adapté, l'utilisateur doit appuyer successivement sur plusieurs touches de la télécommande (site, azimut et zoom) avant d'obtenir le résultat désiré. Cette fonctionnalité est peu pratique, lente, sujette à des erreurs de manipulation et est donc peu utilisée. Elle est de fait impraticable si l'on souhaite adapter périodiquement ou continûment le cadre de la caméra à une personne qui se déplace ou un ensemble de participants qui naturellement bougent. De la même manière, cette fonctionnalité est également impraticable quand on souhaite changer régulièrement de personne.
- La fonction accès par la télécommande à des directions préenregistrées de l'espace présente les inconvénients suivants :
Le premier inconvénient est lié au fait que les positions doivent être préenregistrées. Elles ne peuvent donc être rapidement continûment modifiées.
Le second inconvénient est de supposer que les personnes occuperont bien les positions préenregistrées et qu'elles n'en bougeront pas. Dans la pratique et même en fixant les chaises au sol, on constate que les personnes bougent et donc sont rarement au centre du cadre, voire sortent du cadre si celui-ci est serré sur la personne. Cet inconvénient est manifeste dans le cadre du système de visioconférence où spontanément les personnes sortent du cadre défini par les directions préenregistrées de l'espace.
L'inconvénient suivant est que cette fonctionnalité d'orientation de la caméra dans une direction de l'espace n'associe pas toujours de focale spécifique. Ainsi, l'utilisateur de la télécommande doit actionner les touches de contrôle de la télécommande pour adapter la taille du cadre à la position effectivement occupée par une personne. En effet, si la personne à tendance à sortir du cadre, en passant à une focale plus courte, cette personne revient dans le cadre sans avoir besoin de changer la direction de l'espace dans laquelle pointe la caméra. Mais alors le cadre n'est plus serré sur la personne et, il y a éventuellement plusieurs personnes dans le cadre.
Lorsqu'il est possible d'associer et de mémoriser une focale à chacune des directions mémorisées de l'espace, cela implique que d'une part, l'utilisateur détermine au préalable la focale qu'il estime adaptée et d'autre part, la mémorise. D'autre part, cett.e focale enregistrée est fixe et donc non adaptative et, comme pour la direction, plus ou moins simplement modifiable.
La fonctionnalité d'accès à des directions prédéterminées de l'espace peut convenir à certaines situations stables (télésurveillance) , mais ne permet pas de s'adapter à une situation particulière. La caméra pointe dans la direction de l'espace, mais ne sait rien du contenu de l'espace, qu'il soit occupé par une personne ou vide.
Un autre inconvénient, secondaire, est le nombre limité à 6 directions de l'espace qui peuvent être mémorisées par la caméra et donc accessibles par la télécommande. Cet inconvénient est en général résolu en mémorisant ces directions dans un ordinateur et en utilisant une télécommande avec un plus grand nombre de touches .
La localisation acoustique présente les inconvénients suivants : En raison de la présence de sources sonores parasites (bruits de chaises, de portes, d'appareils, ...) superposées à la parole des personnes présentes et en raison de réflexions multiples des sources acoustiques sur les murs, la localisation acoustique est souvent peu précise.
D'autre part, l'activité acoustique de parole est par nature intermittente (lorsqu'une personne s'arrête de parler pour écouter) .
Enfin, la localisation acoustique est sensible à l'amplitude de la source sonore.
La localisation visuelle présente les inconvénients suivants : Le principal inconvénient de la localisation visuelle est lié à la complexité des algorithmes, à leur rapidité et à leur robustesse. Néanmoins, plusieurs systèmes sont opérationnels soit sur station de travail soit ordinateur personnel (PC) comme les systèmes développés par le déposant, ou comme dans les publications citées précédemment par le déposant.
La fonction de prise de vue automatique d'un groupe de personnes réalisée par le déposant est, à l'usage, particulièrement utile bien que complexe. Le cadre s'adapte en permanence au nombre et la position des participants d'une visioconférence.
Cependant, il apparaît à l'usage, que bien que plus performant et plus satisfaisant que tous les autres, il soit insuffisant car, comme cela a été dit, des besoins se font sentir sur les possibilités d'effectuer à la demande un cadrage automatique sur l'un ou l'autre des participants et de pouvoir revenir tout simplement au cadre général.
L'invention propose pour cela une interface intelligente apte à réaliser la sélection d'une personne (ou d'un groupe de personnes) parmi les personnes de la scène filmée, sur la commande d'un intervenant, et le cadrage automatique à partir des informations fournies par l'analyse de la scène, sur la personne sélectionnée (ou le groupe de personne) .
L'invention a donc pour objet un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande de capteurs de prise de vues et de son et des moyens d'analyse de scène pilotant ces moyens de commande pour obtenir un cadrage automatique de la scène filmée.
Le système comporte des moyens de sélection d'une personne ou d'un groupe de personnes parmi les personnes de la scène filmée et des moyens de cadrage automatique à partir des informations fournies par les moyens d'analyse de la scène, sur la personne sélectionnée ou le groupe de personne.
L'invention a plus particulièrement pour objet, un système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande des capteurs de prise de vues et de son , des moyens d'analyse de scène pour fournir des signaux de position aux moyens de commande, des moyens de sélection d'une personne ou d'un groupe parmi des personnes de la scène filmée,
-principalement caractérisé en ce que les moyens de sélection comportent une interface physique comprenant une commande à distance apte à permettre la sélection de l'une quelconque des personnes de la scène ou d'un groupe, pour avoir un cadrage automatique autour de cette personne ou du groupe, ou de sélectionner l'ensemble des personnes pour avoir un cadrage général de la scène ;
- et en ce que les moyens de cadrage comportent une interface logique apte à établir une correspondance entre la personne sélectionnée par la commande à distance et les informations de position issues de l'analyse de scène pour fournir aux moyens de commande les informations de position de cette personne ou du groupe par rapport à la scène filmée. Selon un mode de réalisation de l'invention, la commande à distance est une télécommande universelle, activant un dispositif apte à émettre des signaux de commande à l'interface logique
Les signaux émis par la télécommande peuvent être infra rouge ou électromagnétiques.
Les signaux de commande de ladite télécommande peuvent être reçus et ré-émis par un émetteur- récepteur .
Les signaux de commande de ladite télécommande peuvent être reçus et ré-émis par un dispositif de reconnaissance de la parole ou de reconnaissance de geste
La commande à distance peut être réalisée par la télécommande de la caméra d'analyse d'image, les signaux de commande de ladite télécommande étant reçus et ré-émis par la caméra d'analyse vers l'interface logique .
Selon un autre mode de réalisation, la commande à distance est une télécommande universelle, les signaux de commande de ladite télécommande étant reçus et réémis par la caméra d'analyse.
Selon un autre mode de réalisation, la commande à distance comprend une interface graphique.
La commande à distance comporte en outre , dans ce cas, un écran sur lequel sont visualisées la scène et les différentes zones sélectionnables .
La commande à distance comporte un périphérique d'entrée/sortie d'ordinateur pour sélectionner les zones repérées. Dans un mode de fonctionnement, il peut être prévu que les moyens d'analyse de scène reçoivent un signal d'analyse local (A), que les moyens de sélection permettent alors de sélectionner une personne ou un groupe de personnes de la scène filmée localement et que les moyens de cadrage automatique utilisent les informations de la scène filmée localement.
Dans un autre mode de fonctionnement, il peut être prévu que les moyens d'analyse reçoivent un signal (A1) d'un système distant pour ou correspondant à l'analyse de scène et que les moyens de sélection permettent alors de sélectionner une personne ou un groupe de personnes de la scène filmée à distance et les moyens de cadrage automatique permettent de piloter le cadrage de la scène filmée à distance, les signaux de commande étant transportés vers le système distant.
D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description qui est donnée à titre indicatif et nullement limitatif et en regard des dessins annexés sur lesquels :
- la figure 1, représente un schéma de principe de 1 ' invention, - la figure 2, représente un schéma plus détaillé de l'invention,
- la figure 3, représente un mode de réalisation particulier pour l' interface physique,
- la figure 4, représente un autre mode de réalisation pour l'interface physique, la figure 5, représente un autre mode de réalisation de l'interface physique, la figure 6, représente un autre mode de réalisation de l'interface physique, la figure 7, représente un autre mode de réalisation de l'interface physique.
Sur la figure 1 on a représenté de façon schématique un système automatique de prise de son et d'images dans lequel on dispose de ressources audiovisuelles 10 pour filmer et capter le son d'une scène 50.
Dans le cas d'un système de visioconférence la scène est composée d'une ou plusieurs personnes dites intervenants Pl-Pn sur un site, désirant communiquer avec d'autres personnes d'un site distant.
Les ressources audiovisuelles 10 sont constituées par des capteurs audio et visuels. Les capteurs audio sont par exemple une série de microphones placés à proximité des intervenants. Les capteurs vidéo sont constitués par une ou plusieurs caméras filmant la scène.
Les ressources audiovisuelles 10 sont pilotées par un dispositif de commande 20 classique, apte à fournir les signaux de commande aux capteurs 10 selon les informations reçues en entrée par l'interface 30 comme cela est détaillé dans la suite.
Conformément à l'invention, les informations reçues en entrée sont fournies par l'interface 30 à partir du dispositif d'analyse de scène 40 et de la sélection effectuée par un intervenant.
Le dispositif d'analyse de scène peut être soit audio, soit visuel, soit audiovisuel associé à des capteurs visuels ou audiovisuels.
Dans l'exemple de réalisation qui est donné, ce dispositif est un dispositif visuel existant. A cette fin, on utilise une caméra d'analyse fixe 60, (la caméra peut être mobile) , qui permet de fournir le signal requis servant à effectuer une analyse de la scène visuelle observée.
Le dispositif d'analyse de la scène comprend par conséquent à cet effet, la caméra 60 et des moyens de traitement 40 du signal A fourni par cette caméra. Ces moyens sont réalisés par exemple par un microordinateur ou une station de travail équipée d'un programme spécifique, existant, d'analyse de scène.
De façon plus précise selon l'exemple de réalisation mis en pratique, les visages des personnes présentes dans le champ visuel, sont détectés par un réseau de neurones, puis ledit programme met en oeuvre un algorithme qui suit les visages détectés. D'autres techniques connues peuvent êtres utilisées. Selon un autre mode de réalisation, on peut utiliser un dispositif d'analyse de la scène 40 avec une caméra mobile.
Selon un troisième mode de réalisation, on peut utiliser ou réaliser un dispositif d'analyse de la scène utilisant plusieurs caméras fixes ou mobiles.
Les différents capteurs 10 sont commandés par un dispositif de commande 20 qui reçoit des signaux de commande de l'interface 30 conformément à la présente invention . Dans le mode de réalisation qui a été réalisé, illustré par le schéma de la figure 2, il s'agit d'un dispositif de commande 20 d'une caméra motorisée 11 qui assure la prise de vue et d'une antenne acoustique 12 qui assure la prise de son. On va détailler ci-dessous, la prise de vue et de son pour un ensemble de personnes et pour une seule personne, ce qui correspond à des réalisations effectives pour le déposant. Les mêmes techniques peuvent être mises en oeuvre pour une prise de vue et de son concernant un groupe de personnes ; le groupe est un sous-ensemble de l'ensemble des personnes. Dans le mode de réalisation préféré qui a été réalisé, l'analyse de la scène est visuelle, c'est-à- dire que l'on détermine la position des personnes mais on ignore si elles parlent.
Dans un autre mode de réalisation impliquant une analyse audiovisuelle (incluant donc le son ) les dispositifs de prise de son seront sélectionnés à partir des informations audiovisuelles.
Lorsque l'utilisateur du système demande, à travers l'interface 30, une prise de vue sur l'ensemble de personnes Pl-Pn, le dispositif de commande 20 commande la caméra 11 de manière à ce que l'ensemble des personnes, présentes dans le champ d'analyse soient cadrées, en respectant les règles de l'art de la prise de vue dans la mesure où les contraintes de la caméra 11 l'autorisent.
Lorsque l'utilisateur du système demande, à travers l'interface 30, une prise de vue sur une personne en particulier, le dispositif 20 commande la caméra 11 de manière à ce que la personne, en respect avec les règles de la prise de vue, soit latéralement centrée, que ses yeux soient approximativement au tiers supérieur de l'image par exemple.
Dans un mode de réalisation mis en oeuvre, la personne sélectionnée étant encadrée par un ou plusieurs voisins, la prise de vue cherche à isoler cette personne des autres à l'image, dans la mesure où les contraintes liées à la caméra et aux règles de la prise de vue l'autorisent. Lorsque l'utilisateur demande, à travers l'interface 30 une prise de son sur l'ensemble des personnes, le dispositif 20 commande la prise de son de manière à capter le champ sonore des différents participants. Ce champ sonore peut être obtenu de différentes manières :
1) A partir d'un champ large réalisé par l'antenne acoustique 12 ;
2) Par sommation des champs sonores issus de différents dispositifs de prise de son (microphones ou antenne acoustique) , dispositifs sélectionnés à partir de l'analyse de la scène.
Lorsque l'utilisateur demande, à travers l'interface 30, une prise de son sur une personne, le dispositif 20 commande la prise de son de manière à capter le champ sonore des différentes personnes. Ce champ sonore peut être obtenu de différentes manières :
1) A partir du champ étroit et orientable de l'antenne acoustique 12. C'est le mode de réalisation réalisé décrit précédemment ;
2) A partir d'un ou plusieurs dispositifs de prise de son, dispositifs sélectionnés à partir des informations visuelles ou des informations audiovisuelles . L'interface 30 permet à l'utilisateur du système d'obtenir une prise de vue et de son conformes à sa demande (un plan large sur l'ensemble des personnes, un plan serré sur une personne particulière) . L'envoi d'une commande issue de l'interface, déclenche la commande d'orientation des capteurs de prise de son et de vue, en fonction de la scène audiovisuelle, analysée par le dispositif d'analyse de scène.
A cette fin, l'interface comporte une interface logique 31 et une interface physique 32. L' interface physique 32 peut être réalisée selon différents modes de réalisation décrits dans la suite à propos des figures 3 à 7.
L'interface logique 31 est, selon un mode de réalisation préférentiel, constituée par un programme chargé dans le système de traitement du signal d'analyse de scène 40. Cette interface logique 31 récupère des informations de position des personnes sur la scène issues de traitement d'analyse de scène et établit une correspondance entre ces informations de position et les informations de sélection données à travers l'interface physique par l'intervenant.
Cette interface logique 31 interprète (c'est à dire qu'elle décode) les informations reçues de l'unité 40 pour fournir des signaux de commande de position interprétables par le dispositif de commande 20 afin d'effectuer le cadrage désiré autour de la personne sélectionnée ou du groupe.
Plusieurs modes de réalisation de l'interface physique 32 sont donc donnés dans la suite.
Un premier mode de réalisation comprend une interface graphique 32A installée sur un microordinateur ou station de travail P comme représenté sur la figure 3. Avec une souris 320, l'utilisateur choisit d'obtenir une prise de vue et de son sur l'ensemble des personnes de la scène, en cliquant sur une fenêtre nommée "Ensemble", référencé E. Avec une souris, l'utilisateur choisit d'obtenir une prise de vue et de son sur une personne de la scène, en cliquant sur une fenêtre portant le numéro de la personne désirée Pl-Pn ou du groupe de personnes.
Sur cette interface graphique 32A le libellé en chiffre des personnes peut être remplacé par l'image de la personne 321 obtenue par le système d'analyse. Cette image est obtenue soit à un moment fixé par l'utilisateur du système, soit elle est automatiquement rafraîchie au cours de la réunion. Une interface graphique 32A avec l'image des personnes 321 est plus ergonomique pour l'utilisateur, car l'interface affiche les prises de vues que peut sélectionner l'utilisateur.
On peut également prévoir un affichage par incrustation sur l'écran de visioconférence, en format réduit, de l'image des personnes présentes avec des numéros, à la visioconférence et, la sélection alors au moyen d'une télécommande.
Dans un autre mode de réalisation, la souris 320 peut être remplacée par un écran tactile et/ou par un dispositif de reconnaissance de la parole R.
Un autre mode de réalisation réalisé pour l'interface physique 32 est représenté par la figure 4. Selon ce mode de réalisation, on détourne l'usage de la télécommande 32B de la caméra d'analyse de la scène visuelle 60 pour permettre à l'utilisateur du système d'envoyer des signaux de commande à la caméra 60. Le détournement et l'utilisation de cette télécommande a été réalisé pour des raisons de facilité et de rapidité de mise en oeuvre.
La télécommande infrarouge 32B est en communication (commandes CDE) avec la caméra d'analyse 60. Cette télécommande de caméra d'analyse dispose d'un certain nombre de touches dont notamment des touches correspondant à des mémoires de position et une touche "home" H correspondant à la position de repos de la caméra.
Les mémoires de position ne sont pas utilisées en tant que telles pour pointer des directions de l'espace, mais on n'utilise que le fait que les touches sont activées.
Les positions des mémoires de position sont préalablement initialisées par le système, à la position de repos de la caméra. La caméra d'analyse étant fixe dans un des modes de réalisation, le déclenchement des positions 1 à 6 ou de la touche "home" H n'a pas d'effet sur la position de cette caméra d'analyse 60. Ainsi, en appuyant par exemple sur la touche "home" H, l'utilisateur déclenche via les dispositifs 60, 40, 30 et 20, une prise de vue et de son sur l'ensemble des personnes présentes dans la scène.
Et, en appuyant sur l'une des touches de 1 à 6 correspondant à la mémoire des positions, l'utilisateur déclenche via les dispositifs 60, 40, 30, et 20, une prise de vue sur la personne correspondante (6 personnes maximum dans cette version) .
D'autres télécommandes peuvent être utilisées qu'elles utilisent ou pas la caméra d'analyse en tant que relais de transmission.
On peut par exemple utiliser une télécommande à programmation universelle à la place de la télécommande de la caméra d'analyse, pour permettre à l'utilisateur de sélectionner la prise de vue et de son. Ce mode de réalisation n'est pas illustré car il correspond au schéma de la figure 4 à ceci prés que la télécommande 32B est dans ce cas une télécommande universelle.
Dans une phase préparatoire du matériel en vue de mettre en oeuvre l'application, on aura au préalable enregistré dans la télécommande universelle certains des codes de la caméra d'analyse (mémoire de position, "home", ...). Lors de l'utilisation effective de la télécommande 32B, les signaux infrarouges envoyés par la télécommande sont décodés et analysés par l'interface logique 31.
L'utilisation d'une télécommande universelle, permet d'une part, de rendre indisponibles certaines commandes de la caméra d'analyse 60 (la télécommande universelle n'apprend pas les codes correspondants), et d'autre part, d'avoir des touches dont le libellé correspond mieux à la demande de l'utilisateur : Ainsi, des touches "+ " et "-" permettent à l'utilisateur de zapper d'une personne à une autre, comme il a l'habitude de le faire avec les chaînes de télévision.
On va se reporter maintenant au schéma de la figure 5 qui correspond à un autre mode de réalisation conforme à l'invention. Afin de ne pas dépendre de la caméra d'analyse en tant que relais entre la télécommande et l'interface 31 et pour offrir à l'utilisateur une palette de commande plus riche, on peut utiliser un dispositif émetteur récepteur 70 du commerce. Cet émetteur-récepteur 70 capte des signaux infrarouges CDE issus de la télécommande 32B et renvoie des codes vers l'interface logique 31, par exemple à travers un port de communication RS232, connecté à l'interface 30. La figure 6 illustre un mode de réalisation selon lequel l'interface physique 32 comporte une commande à distance par la voix 32B associée à un dispositif de reconnaissance de la parole 80 existant.
La figure 7 illustre un mode de réalisation selon lequel l'interface physique 32 comporte une commande à distance par le geste 32B associée à un dispositif de reconnaissance du geste 90 existant.
Les précédents modes de réalisation de l'interface permettent à un utilisateur de sélectionner les prises de vue et de son obtenues avec les capteurs physiquement présents dans la salle où se trouve l'utilisateur. Cela est symbolisé par le signal A
(local) servant à l'analyse de la scène sur la figure 1.
Dans un autre mode de réalisation, les interfaces 31, 32 précédemment décrites permettent de commander les capteurs de prise de vue et de son physiquement présents dans une salle distante ( où ne se trouve pas l'utilisateur), la salle avec laquelle il est en visioconférence par exemple.
Ainsi, l'utilisateur participant à une visioconférence, sélectionne et obtient les prises de vue et de son désirées. Pour cela, le signal A' (distant) pour l'analyse de scène ou correspondant à l'analyse (signal déjà analysé par un système distant dépourvu du signal vidéo) sera appliqué à une entrée du dispositif d'analyse 40.
Dans ce mode de réalisation, les signaux C émis par la télécommande infrarouge ou par l'interface graphique (et les signaux nécessaires à la constitution des images de l'interface graphique) sont transportés avec l'image, le son et les autres signaux de la visioconférence . Dans ce mode de réalisation, l'éventuel conflit de commande des capteurs entre la salle locale et la salle distante doit être géré.

Claims

REVENDICATIONS
1. Système automatique de prise de son et d'images notamment pour visioconférence, comportant des moyens de commande (20) des capteurs de prise de vues et de son (10), des moyens d'analyse de scène (40) pour fournir des signaux de position aux moyens de commande (20), des moyens de sélection (30) d'une personne ou d'un groupe parmi des personnes de la scène filmée,
- caractérisé en ce que les moyens de sélection comportent une interface physique (32) comprenant une commande à distance (32A, 32B) apte à permettre la sélection de l'une quelconque des personnes de la scène ou d'un groupe, pour avoir un cadrage automatique autour de cette personne ou du groupe, ou de sélectionner l'ensemble des personnes pour avoir un cadrage général de la scène ;
- et en ce que les moyens de cadrage comportent une interface logique (31) apte à établir une correspondance entre la personne sélectionnée par la commande à distance (32A ou 32B) et les informations de position issues de l'analyse de scène pour fournir aux moyens de commande (20) les informations de position de cette personne ou du groupe par rapport à la scène filmée .
2. Système selon la revendication 1, caractérisé en ce que la commande à distance (32B) est une télécommande universelle, activant un dispositif apte à émettre des signaux de commande à l'interface logique (31) .
3. Système selon la revendication 2, caractérisé en ce que les signaux de commande de ladite télécommande (32B) sont reçus et ré-émis par un émetteur-récepteur (70) .
4. Système selon la revendication 2, caractérisé en ce que les signaux de commande de ladite télécommande
(32B) sont reçus et ré-émis par un dispositif de reconnaissance de la parole (80) ou de reconnaissance de geste (90) .
5. Système selon la revendication 1, caractérisé en ce que la commande à distance (32B) est la télécommande de la caméra d'analyse d'image (60), les signaux de commande de ladite télécommande (32) étant reçus et réémis par la caméra d'analyse (60) vers l'interface logique (31) .
6. Système selon la revendication 1, caractérisé en ce que commande à distance (32B) est une télécommande universelle, les signaux de commande de ladite télécommande (32B) étant reçus et ré-émis par la caméra d' analyse (60) .
7. Système selon la revendication 1, caractérisé en ce que la commande à distance comprend une interface graphique (32A) .
8. Système de visioconférence selon la revendication 7, caractérisé en ce que la commande à distance comporte en outre un écran (321) sur lequel sont visualisées la scène et les différentes zones sélectionnables .
9. Système selon la revendication 7, caractérisé en ce que la commande à distance comporte un périphérique (320) d'entrée/sortie d'ordinateur pour sélectionner les zones repérées.
10. Système de visioconférence selon l'une quelconque des revendications précédentes, selon lequel les moyens d'analyse de scène reçoivent un signal d'analyse local (A), caractérisé en ce que les moyens de sélection permettent de sélectionner une personne ou un groupe de personnes de la scène filmée localement et en ce que, les moyens de cadrage automatique utilisent les informations de la scène filmée localement.
11. Système de visioconférence selon l'une quelconque des revendications précédentes recevant un signal (A') d'un système distant pour ou correspondant à l'analyse de scène, caractérisé en ce que les moyens de sélection permettent de sélectionner une personne ou un groupe de personnes de la scène filmée à distance et en ce que les moyens de cadrage automatique permettent de piloter le cadrage de la scène filmée à distance, les signaux de commande étant transportés vers le système distant.
PCT/FR1999/002047 1998-08-31 1999-08-26 Systeme automatique de prise de son et d'images WO2000013417A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP99940237A EP1110398A1 (fr) 1998-08-31 1999-08-26 Systeme automatique de prise de son et d'images
JP2000568257A JP2002524936A (ja) 1998-08-31 1999-08-26 音声および画像自動記録システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR98/10888 1998-08-31
FR9810888A FR2782877B1 (fr) 1998-08-31 1998-08-31 Systeme automatique de prise de son et d'images

Publications (1)

Publication Number Publication Date
WO2000013417A1 true WO2000013417A1 (fr) 2000-03-09

Family

ID=9530001

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1999/002047 WO2000013417A1 (fr) 1998-08-31 1999-08-26 Systeme automatique de prise de son et d'images

Country Status (4)

Country Link
EP (1) EP1110398A1 (fr)
JP (1) JP2002524936A (fr)
FR (1) FR2782877B1 (fr)
WO (1) WO2000013417A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010055058A1 (en) * 2000-06-08 2001-12-27 Rajko Milovanovic Method and system for video telephony
JP5395716B2 (ja) * 2010-03-25 2014-01-22 株式会社デンソーアイティーラボラトリ 車外音提供装置、車外音提供方法およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4274609A (en) * 1977-05-06 1981-06-23 Societe D'etudes Et De Realisations Electroniques Target and missile angle tracking method and system for guiding missiles on to targets
GB2252473A (en) * 1991-09-17 1992-08-05 Radamec Epo Limited Remote control system for robotic camera
WO1995011566A1 (fr) * 1993-10-20 1995-04-27 Videoconferencing Systems, Inc. Systeme adaptable de video conferences
US5434617A (en) * 1993-01-29 1995-07-18 Bell Communications Research, Inc. Automatic tracking camera control system
WO1996014587A2 (fr) * 1994-11-04 1996-05-17 Telemedia A/S Procede relatif a un systeme d'enregistrement d'images
EP0751473A1 (fr) * 1995-06-26 1997-01-02 Lucent Technologies Inc. Localisation de caractéristiques dans une image
US5686957A (en) * 1994-07-27 1997-11-11 International Business Machines Corporation Teleconferencing imaging system with automatic camera steering
US5745161A (en) * 1993-08-30 1998-04-28 Canon Kabushiki Kaisha Video conference system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4286289A (en) * 1979-10-31 1981-08-25 The United States Of America As Represented By The Secretary Of The Army Touch screen target designator

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4274609A (en) * 1977-05-06 1981-06-23 Societe D'etudes Et De Realisations Electroniques Target and missile angle tracking method and system for guiding missiles on to targets
GB2252473A (en) * 1991-09-17 1992-08-05 Radamec Epo Limited Remote control system for robotic camera
US5434617A (en) * 1993-01-29 1995-07-18 Bell Communications Research, Inc. Automatic tracking camera control system
US5745161A (en) * 1993-08-30 1998-04-28 Canon Kabushiki Kaisha Video conference system
WO1995011566A1 (fr) * 1993-10-20 1995-04-27 Videoconferencing Systems, Inc. Systeme adaptable de video conferences
US5686957A (en) * 1994-07-27 1997-11-11 International Business Machines Corporation Teleconferencing imaging system with automatic camera steering
WO1996014587A2 (fr) * 1994-11-04 1996-05-17 Telemedia A/S Procede relatif a un systeme d'enregistrement d'images
EP0751473A1 (fr) * 1995-06-26 1997-01-02 Lucent Technologies Inc. Localisation de caractéristiques dans une image

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network

Also Published As

Publication number Publication date
FR2782877B1 (fr) 2000-10-13
EP1110398A1 (fr) 2001-06-27
FR2782877A1 (fr) 2000-03-03
JP2002524936A (ja) 2002-08-06

Similar Documents

Publication Publication Date Title
US8159519B2 (en) Personal controls for personal video communications
US8154578B2 (en) Multi-camera residential communication system
US8063929B2 (en) Managing scene transitions for video communication
US8253770B2 (en) Residential video communication system
US8154583B2 (en) Eye gazing imaging for video communications
US9274744B2 (en) Relative position-inclusive device interfaces
CN101247461B (zh) 为照相机提供区域缩放功能
US7559026B2 (en) Video conferencing system having focus control
US6972787B1 (en) System and method for tracking an object with multiple cameras
US8941710B2 (en) Ambulatory presence features
CA2284884C (fr) Systeme de visioconference
US9263044B1 (en) Noise reduction based on mouth area movement recognition
US20150208032A1 (en) Content data capture, display and manipulation system
KR20170091913A (ko) 영상 서비스 제공 방법 및 장치
US20080180519A1 (en) Presentation control system
US9374554B1 (en) Display selection for video conferencing
JP2013504933A (ja) 時間シフトされたビデオ通信
US11019272B2 (en) Automatic dynamic range control for audio/video recording and communication devices
FR2886800A1 (fr) Procede et dispositif de commande d'un deplacement d'une ligne de visee, systeme de visioconference, terminal et programme pour la mise en oeuvre du procede
CN108702458A (zh) 拍摄方法和装置
CN106791339A (zh) 成像系统及其控制方法
CN106341602A (zh) 全景图像的生成方法及装置
CN105049813A (zh) 控制视频画面的方法、装置及终端
WO2000013417A1 (fr) Systeme automatique de prise de son et d'images
CN109983765A (zh) 经由全方位相机的视听传输调整

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 1999940237

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2000 568257

Kind code of ref document: A

Format of ref document f/p: F

WWP Wipo information: published in national office

Ref document number: 1999940237

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1999940237

Country of ref document: EP