WO2015150711A1

WO2015150711A1 - Procédé de transmission d'informations via un canal vidéo entre deux terminaux

Info

Publication number: WO2015150711A1
Application number: PCT/FR2015/050869
Authority: WO
Inventors: Philippe CHABALIER; Noël KHOURI
Original assignee: Studec
Priority date: 2014-04-02
Filing date: 2015-04-02
Publication date: 2015-10-08
Also published as: FR3019704A1; FR3019704B1; US20170147177A1; EP3127299A1

Abstract

Procédé de transmission d'informations entre au moins deux utilisateurs (1, 3) dotés de moyens d'affichage d'images (2, 4), l'un de ces utilisateurs étant doté de moyens d'acquisition d'images, les utilisateurs étant reliés à un réseau de communication. Le procédé comporte des étapes suivantes : acquisition d'images par un utilisateur émetteur, et transmission de ces images aux autres utilisateurs (2), affichage des images reçues sur les moyens d'affichage (4) de tous les utilisateurs, tant émetteur (1) qu'observateurs (3), identification par l'utilisateur émetteur (1) ou un utilisateur observateur (3), d'une zone d'intérêt de l'image, cette identification déterminant un pointeur de zone sur l'écran d'affichage, ce pointeur étant associé à l'utilisateur créateur, transmission des coordonnées sur l'image de ce pointeur de zone aux autres utilisateurs, et affichage du pointeur de la zone d'intérêt sur l'écran d'affichage de tous les utilisateurs (1, 3).

Description

PROCÉDÉ DE TRANSMISSION D'INFORMATIONS VIA UN CANAL VIDÉO

ENTRE DEUX TERMINAUX

La présente invention relève du domaine des procédés de transmission d'information. Elle concerne plus particulièrement un procédé de transmission d'informations entre deux utilisateurs via un canal vidéo. Exposé de l'invention

L'invention vise en premier lieu un procédé de transmission d'informations entre au moins deux utilisateurs dotés de moyens d'affichage d'images, l'un au moins d'entre ces utilisateurs étant également doté de moyens d'acquisition d'images, les utilisateurs étant reliés à un réseau de communication permettant d'échanger des séquences vidéo ou images fixes en temps réel.

Le procédé comporte au moins des étapes suivantes :

100 - Ouverture d'une session de communication vidéo entre les utilisateurs,

200 - Acquisition d'images par un premier utilisateur, dit ici utilisateur émetteur, et transmission de ces images aux autres utilisateurs, dits utilisateurs observateurs, sensiblement en temps réel,

300 - Affichage des images reçues sur les moyens d'affichage de tous les utilisateurs, tant émetteur qu'observateurs, connectés à la session,

400 - Identification par l'utilisateur émetteur ou un utilisateur observateur, d'une zone d'intérêt de l'image, correspondant par exemple à un objet montré par ladite image, cette identification déterminant un pointeur de zone sur l'écran d'affichage, ce pointeur étant associé à l'utilisateur créateur,

500 - Transmission des coordonnées sur l'image de ce pointeur de zone identifiée par un utilisateur aux autres utilisateurs, et affichage du pointeur de la zone d'intérêt sur l'écran d'affichage de tous les utilisateurs.

Le pointeur comporte éventuellement une identification de l'utilisateur émetteur de ce pointeur de zone d'intérêt. Les moyens d'affichage peuvent être notamment constitués d'un écran d'affichage plan, de lunettes de vision de réalité augmentée ou de tout autre système d'affichage d'image.

Les moyens d'acquisition d'image sont par exemple constitués d'une caméra vidéo, d'une webcam ou d'un scanner 3D.

En d'autres termes, dans un cas particulier de mise en œuvre, on comprend que deux utilisateurs, dotés chacun d'un système comprenant par exemple une tablette PC (regroupant un écran tactile, une ou deux webcams, des moyens de calcul et de communication), peuvent s'échanger des informations pour désigner un objet filmé par la webcam d'un des deux terminaux.

Les écrans d'affichage des utilisateurs affichent par défaut la même image pendant une partie au moins de la session.

On comprend que de la sorte, les utilisateurs voient la même vidéo et voient à la fois leurs pointeurs de désignation de zone ainsi que le pointeur de désignation de zone des autres utilisateurs.

Dans un mode particulier de réalisation, les moyens d'affichage d'image d'au moins un utilisateur sont un écran d'affichage tactile, c'est à dire doté de moyens de désignation de points sur ces images, et l'identification par l'utilisateur d'une zone d'intérêt est réalisée directement de façon tactile sur son écran d'affichage.

Dans un mode particulier de réalisation, le pointeur de désignation de la zone d'intérêt est un cercle, et l'identification de l'utilisateur émetteur est réalisée sous forme d'un code de texture ou de couleur de la zone, chaque utilisateur étant associé à une texture et/ ou couleur particulières.

Dans un mode de réalisation favorable à une bonne interaction entre les utilisateurs, des pointeurs associés à chaque utilisateur sont en permanence affichés sur l'écran d'affichage de chaque utilisateur connecté à une même session.

Avantageusement, dans ce cas, les pointeurs de désignation sont initialement positionnés, en début de session, en dehors de la zone d'image filmée proprement dite, par exemple dans une zone latérale de l'image, seuls les pointeurs de désignation en cours d'utilisation par l'un ou l'autre utilisateur étant positionnés sur des zones de l'image elle-même.

Dans un mode de réalisation avantageux, chaque pointeur de désignation ne peut être déplacé que par l'utilisateur qui lui est associé.

Le déplacement de son pointeur de désignation par un utilisateur est, dans un mode particulier de réalisation, réalisé par glissement tactile sur l'écran, du pointeur de désignation, de sa position initiale vers la position visée sur l'image.

Dans un mode particulier de réalisation, le procédé comporte en outre étape de déplacement du pointeur de désignation corrélativement au déplacement de l'objet qu'il désigne sur l'écran d'affichage, lors des mouvements de la caméra face audit objet. Présentation des figures

Les caractéristiques et avantages de l'invention seront mieux appréciés grâce à la description qui suit, description qui expose les caractéristiques de l'invention au travers d'un exemple non limitatif d'application.

La description s'appuie sur les figures annexées qui représentent :

Figure 1 : les différents éléments impliqués dans une mise en œuvre de l'invention et les étapes principales du procédé,

Figure 2 : les mêmes éléments dans une variante de réalisation de l'invention,

Figure 3 : les mêmes éléments dans une seconde variante de réalisation de l'invention,

Figure 4 : un détail des éléments mis en œuvre dans une troisième variante de réalisation de l'invention.

Description détaillée d'un mode de réalisation de l'invention

Dans le présent mode de mise en œuvre, donné ici à titre illustratif et non limitatif, un dispositif selon l'invention est utilisé dans le cadre d'une session d'échange vidéo et éventuellement son entre deux utilisateurs ou entre un utilisateur émetteur et plusieurs utilisateurs observateurs. Dans le présent exemple non limitatif, le procédé est mis en œuvre de façon logicielle.

Comme on le voit sur la figure 1 , le procédé met en œuvre, dans un exemple de réalisation donné ici à titre illustratif et nullement limitatif, au moins un premier utilisateur 1 , doté d'un premier terminal 2, et au moins un utilisateur fixe 3, doté d'un second terminal 4.

Dans l'exemple de réalisation donné ici, le premier terminal 2 et le second terminal 4 de données sont similaires et de type tablette PC. Il peut également s'agir également de téléphones mobiles de type Smartphone, d'ordinateurs de type PC etc. On suppose ici que le premier terminal 2, et le second terminal 4 comportent tous deux des moyens d'affichage et des moyens de désignation d'un point sur l'écran. Ces moyens de désignation d'un point sur l'écran prennent typiquement la forme de dispositif de captation de la position d'un doigt sur l'écran, dans le cas de tablettes PC dotées d'écrans tactiles. Il peut d'agir, dans des variantes de mise en œuvre, de souris, trackpads ou autres moyens connus de l'homme du métier.

Le premier terminal 2 et le second terminal 4 sont reliés à un réseau de communications, par exemple de type sans fil, notamment GSM ou Wi-Fi. Le premier terminal 2 et le second terminal 4 comportent chacun des moyens d'exécution d'une application logicielle mettant en œuvre une partie ou tout le procédé.

Au moins l'un d'entre le premier terminal 2 et le second terminal 4 comporte des moyens d'acquisition d'image. Dans une mise en œuvre avantageuse, ces moyens d'acquisition d'image permettent l'acquisition de séquences vidéo. Il s'agit par exemple mais non limitativement de caméra vidéo de type webcam. Dans le présent exemple, les deux terminaux 2, 4 comportent des moyens d'acquisition d'images de type webcam.

Dans le mode préféré de réalisation, au moins l'un d'entre le premier terminal 2 et le second terminal 4 comporte une webcam orientable ou orientée de façon fixe sensiblement vers la direction opposée à la direction de vision de l'utilisateur, c'est à dire en d'autres termes vers le demi-espace situé derrière le terminal mobile. Dans le cas de plusieurs caméras pour le même périphérique, la communication entre utilisateurs peut s'appliquer à l'une quelconque des caméras, par exemple une caméra avant ou arrière d'une tablette

En variante, la communication est établie entre des utilisateurs dotés de lunettes ou de casques de vision connectés au travers de/des caméras incluses.

Le procédé comporte plusieurs étapes successives. Le schéma figure 1 explique graphiquement ce concept pour des périphériques à écran.

100 - Ouverture d'une session de communication vidéo entre les utilisateurs. Les utilisateurs sont mis en relation à partir d'un annuaire de façon connue en soi.

Cette communication vidéo peut être de terminal à terminal de façon directe, ou via un serveur.

Cette ouverture de session comporte la désignation d'un utilisateur émetteur 1 .

200 - Acquisition d'images par l'utilisateur émetteur 1 , et transmission de ces images aux utilisateurs observateurs 2 en temps réel.

Une fois connecté, l'utilisateur émetteur 1 envoie une image vidéo de la caméra de son choix à un ou N utilisateurs observateurs 3 connectés. L'utilisateur émetteur 1 envoie donc une image de ce qu'il filme, cette image étant aussi affichée sur l'écran d'affichage de son terminal 2 dans le cas d'un terminal à écran, ou étant la vision directe dans le cas de périphériques de type lunettes de vision à réalité augmentée.

300 - Affichage des images reçues sur les moyens d'affichage 4 de l'utilisateur observateur 3. L'ensemble des utilisateurs (tant émetteur 1 qu'observateurs 3) voient alors la même image sur leur écran d'affichage : celle qui est acquise par une caméra vidéo de l'utilisateur émetteur 1 . 400 - Identification par le premier 1 ou le second utilisateur 3, d'une zone d'intérêt de l'image, correspondant par exemple à un objet montré par ladite image, cette identification déterminant un pointeur sur l'écran d'affichage.

L'utilisateur émetteur 1 et le ou les utilisateurs observateurs 3 peuvent chacun disposer sur leur écran d'affichage 2, 4 des pointeurs sous forme de repères graphiques (cercle, point, flèches, images, dessins d'une zone....)

500 - Transmission de ce pointeur d'une zone identifiée par un utilisateur aux autres utilisateurs, et affichage du pointeur de la zone d'intérêt sur l'écran d'affichage des autres utilisateurs et d'une identification de l'utilisateur émetteur de ce pointeur de zone d'intérêt.

Les pointeurs sont donc émis vers le film commun à tous les utilisateurs de la même session, et vus par tous les utilisateurs, qu'ils soient l'utilisateur émetteur 1 ou l'un des utilisateurs observateurs 3. Dans le cas d'écrans tactiles, ces pointeurs suivent les mouvements du doigt de l'utilisateur qui les positionne. Ils sont affichés sur tous les terminaux aux mêmes coordonnées relativement à l'image affichée.

Autrement dit, tous les utilisateurs tant émetteur 1 qu'observateurs 3 voient sur l'écran d'affichage de leur terminal la combinaison du film émis par la caméra vidéo de l'utilisateur émetteur 1 , et de l'ensemble des pointeurs

(repères graphiques) posés par l'ensemble des utilisateurs tant émetteur 1 qu'observateurs 3.

Dans une variante de mise en œuvre, on peut inverser le procédé : le terminal émetteur 2 devenant récepteur et le terminal récepteur 4 devenant émetteur. Chaque utilisateur, lorsqu'il est utilisateur émetteur, décide de la caméra à utiliser sur son terminal : caméra avant ou arrière, selon qu'il souhaite qu'on voit son visage ou l'environnement situé au delà de son terminal.

Le schéma figure 2 explique graphiquement ce concept pour des périphériques de type lunettes et écran. Dans le cas illustré par cette figure, l'utilisateur émetteur 1 dispose de lunettes d'affichage et d'acquisition d'images, et pointe directement avec son doigt dans le monde réel l'objet qu'il souhaite désigner. Les utilisateurs observateurs 3 voient cette désignation sur leur écran d'affichage. En sens inverse, les utilisateurs observateurs peuvent créer des pointeurs de façon tactile sur leur écran d'affichage, et l'utilisateur émetteur 1 voit ces pointeurs affichés en surimposition sur les objets du monde réel par l'intermédiaire des ses lunettes de vision augmentée.

Dans une seconde variante, éventuellement utilisée en conjonction avec la précédente, le pointage réalisé dans le monde réel est graphiquement représenté sur le dispositif émetteur.

Chaque utilisateur décide de la caméra à utiliser sur son périphérique.

Le schéma figure 3 explique graphiquement ce concept pour des périphériques de type lunettes des deux cotés.

Dans une autre variante, à la demande et pour tous les types de terminaux, on peut poser plusieurs repères.

Le pointage réalisé dans le monde réel est graphiquement représenté sur l'image émise par le terminal émetteur 2.

Le pointage sur le film reçu s'effectue en pointant du doigt dans l'espace réel local retranscrit sur la projection du monde réel distant. Ce pointage est renvoyé au dispositif émetteur tel que représenté figure 4.

Avantages

Le procédé, tel qu'exposé plus haut, permet, par exemple, la mise en œuvre de support à distance, notamment dans le cas de maintenance de produits.

Variantes de réalisation

Diverses variantes peuvent être envisagées, en conjonctions avec le procédé décrit plus haut, ces variantes étant éventuellement utilisées selon des combinaisons techniquement possibles.

Dans un concept multi récepteurs et émetteurs, le procédé est utilisable pour plusieurs utilisateurs selon les modalités suivantes :

Un seul émetteur du film de référence à un instant donné L'émetteur peut être sélectionné dans la communauté connectée sur le film

Les pointages distants sont différenciés (forme ou accompagné du nom de l'utilisateur) et affichés sur le film de référence (celui visionné par tous).

Dans le cas d'une tablette émettrice, l'émission du film saisi par la caméra vidéo peut être remplacée par l'émission de l'image de l'écran. Tout ce qui est visualisé sur l'écran d'origine est envoyé aux écrans ou lunettes connectés. Au lieu de partager un film émis par un des participants, on envoi le contenu d'un écran.

Dans un autre concept, en utilisant l'interaction graphique, un utilisateur désigne un point et l'un des utilisateurs demande sa persistance. Dans ce cas :

- Le pointeur (cercle, point, flèche...) est représenté même si le doigt pointeur n'est plus présent,

Il est positionné dans l'environnement en 3D. C'est-à-dire que le point désigné reste au même endroit dans les 3 dimensions quelle que soit la position du dispositif qui le filme.

- Cette position est envoyée aux dispositifs récepteurs sur le film envoyé à la position 3D définie

Lors de la connexion, on peut envoyer des données depuis le dispositif émetteur vers les récepteurs et vice versa. Ces données sont :

- Message

Texte

Image

Vidéo Les données envoyées sont consultables et visualisables en local.

A la demande d'un utilisateur (récepteur ou émetteur), la session peut être enregistrée (film + interactions graphiques et son). Ces enregistrement seront ensuite consultables par la communauté selon les droits définis pour chaque utilisateur de la communauté.

Les éléments suivants peuvent être enregistrés :

Le film (image + son)

- Les utilisateurs connectés durant la session

Les coordonnées du dispositif dans l'espace grâce aux capteurs intégrés : coordonnées GPS, direction de la boussole, données communiquées par les accéléromètres. Le système global (dispositif émetteur + serveur) peut apprendre à reconnaître un objet dans la scène réelle. La description 3D permettant la reconnaissance d'objet est stockable et réutilisable par tous les dispositifs connectés au système.

Cette reconnaissance est basée sur les procédés suivant :

- La description 3D des objets à reconnaître est réalisée en filmant une scène réelle ou à partir des modèles 3D définis par un bureau d'étude par exemple

Cette description est stockable en local au dispositif ou sur un serveur

- Lorsqu'on est en mode reconnaissance automatique, le film de la scène réelle est complété par l'insertion d'objets graphiques désignant le/les objets reconnus.

La reconnaissance d'un objet entraine les possibilités suivantes : o Surimpression sur l'objet d'un marqueur

o « Sensibilité» du marqueur, la sélection du marqueur avec le dispositif de pointage (doigt par exemple) permet de déclencher une action : visualisation d'un film imbriqué à la réalité, affichage d'un élément texte, image ou vidéo

o L'action peut aussi être déclenchée automatiquement dès que l'objet est reconnu sans sélection préalable

o Une session précédemment enregistrée tel que décrit par le concept 7 peut être rejouée.

Claims

REVENDICATIONS

1. Procédé de transmission d'informations entre au moins deux utilisateurs (1 , 3) dotés de moyens d'affichage d'images (2, 4), l'un au moins (1 ) d'entre ces utilisateurs étant également doté de moyens d'acquisition d'images, les utilisateurs étant reliés à un réseau de communication permettant d'échanger des séquences vidéo ou images fixes en temps réel,

caractérisé en ce que le procédé comporte au moins des étapes suivantes :

100 - Ouverture d'une session de communication vidéo entre les utilisateurs,

200 - Acquisition d'images par un premier utilisateur (1 ), dit ici utilisateur émetteur, et transmission de ces images aux autres utilisateurs (2) sensiblement en temps réel,

300 - Affichage des images reçues sur les moyens d'affichage (4) de tous les utilisateurs, tant émetteur (1 ) qu'observateurs (3), connectés à la session,

400 - Identification par l'utilisateur émetteur (1 ) ou un utilisateur observateur (3), d'une zone d'intérêt de l'image, correspondant par exemple à un objet montré par ladite image, cette identification déterminant un pointeur de zone sur l'écran d'affichage, ce pointeur étant associé à l'utilisateur créateur, 500 - Transmission des coordonnées sur l'image de ce pointeur de zone identifiée par un utilisateur aux autres utilisateurs, et affichage du pointeur de la zone d'intérêt sur l'écran d'affichage de tous les utilisateurs (1 , 3).

2. Procédé selon la revendication 1 , caractérisé en ce que le pointeur comporte une identification de l'utilisateur émetteur de ce pointeur de zone d'intérêt.

3. Procédé selon la revendication 1 ou 2, caractérisé en ce que les moyens d'affichage d'image d'au moins un utilisateur (1 , 3) sont un écran d'affichage tactile, c'est à dire doté de moyens de désignation de points sur ces images, et l'identification par l'utilisateur d'une zone d'intérêt est réalisée directement de façon tactile sur son écran d'affichage.

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le pointeur de désignation de zone est un cercle, et l'identification de l'utilisateur émetteur est réalisée sous forme d'un code de texture ou de couleur de la zone, chaque utilisateur étant associé à une texture et/ ou couleur particulières.

5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que des pointeurs associés à chaque utilisateur sont en permanence affichés sur chaque terminal des utilisateurs connectés à une même session.

6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que les pointeurs de désignation sont initialement positionnés, en début de session, en dehors de la zone d'image filmée proprement dite, seules les pointeurs de désignation en cours d'utilisation par l'un ou l'autre utilisateur étant positionnés sur des zones de l'image elle-même.

7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que chaque pointeur de désignation ne peut être déplacé que par l'utilisateur qui lui est associé.

8. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que le déplacement du pointeur de désignation par un utilisateur est réalisé par glissement tactile sur l'écran, du pointeur de désignation, de sa position initiale vers la position visée sur l'image.

9. Procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce que le procédé comporte en outre une étape de déplacement du pointeur de zone de désignation corrélativement au déplacement de l'objet qu'il désigne sur l'écran d'affichage, lors des mouvements du terminal face audit objet.