Dispositif et procédé d'analyse du regard en temps-réel
Domaine technique
L'invention concerne le domaine de l'analyse du regard, et en particulier concerne un dispositif et un procédé permettant la capture, la mesure et l'analyse en temps-réel du regard d'une personne. Etat de la technique
Il existe de nombreux dispositifs et méthodes permettant la capture et la mesure du regard d'un sujet que ce soit au cours d'une mission opérationnelle ou pendant une formation ou un entraînement. Une application particulièrement intéressante est celle de l'évaluation du comportement d'un sujet opérant dans un environnement de poste de pilotage, que ce soit un poste de conduite terrestre ou aérien, de type cockpit d'avion ou d'hélicoptère.
On peut citer les dispositifs « REGT » (Remote Eye Gaze Tracker) utilisés pour regarder des écrans plats et destinés à mesurer précisément où le regard du sujet est posé sur un tel écran. Bien que ces instruments de mesures soient assez précis, la couverture angulaire de rotation et de position de la tête reste très limitée, et ils ne permettent pas de faire des mesures lorsqu'une personne dans un cockpit regarde un piédestal ou un plafonnier ou regarde latéralement, car il faudrait ajouter des marqueurs dans l'environnement opérationnel de travail.
Des solutions basées sur des installations avec des caméras fixes par rapport à un cockpit et situées face au sujet à observer, connues comme « Outside-in tracking », permettent d'une part de détecter la position et l'orientation de la tête dans le repère des caméras fixes, et d'autre part de détecter la position et la taille de la pupille et l'orientation du regard relativement à la tête du sujet, puis par construction de remettre ces mesures dans le repère des caméras fixes. Ce type de dispositif est efficace lorsque le sujet reste dans une couverture angulaire déterminée et restreinte, du fait du nombre de caméras fixes à poser dans l'environnement. Il est donc contraint en couverture angulaire de l'orientation de la tête d'une part et en volume de capture de la position de la tête d'autre part, par le nombre de caméras disposées dans
l'environnement de travail, qui dans les dispositifs actuels sont de 4 à 8. Aussi pour augmenter la couverture angulaire, il faudrait intégrer des caméras supplémentaires dans la zone à couvrir, ce qui peut perturber l'environnement opérationnel, que ce soit un cockpit ou un poste de conduite. Par ailleurs, ce type de dispositif est sensible au port de lunettes avec verres correcteurs qu'un sujet aurait à porter.
Il existe aussi des solutions basées sur des dispositifs composites. On peut citer les solutions composées d'une part par un dispositif de suivi du regard ou « eye- tracking » basé sur des caméras fixées sur une monture portée par un sujet et d'autre part par un dispositif de suivi de posture de la tête ou « head-tracking ». Les caméras fixées sur la monture fournissent une orientation du regard et une position et une taille de la pupille par rapport au repère de la monture. Le dispositif de « head-tracking » est basé sur des caméras fixées dans la scène où le sujet évolue (« outside-in tracking») avec des marqueurs (en général des leds) posés sur la monture de lunettes qui sont détectés par ces caméras fixes et qui déterminent la position de la tête dans le repère de ces caméras fixes. Par combinaison des deux mises en repère monture et scène, la position du regard et de la pupille dans le repère des caméras fixes sont calculés. Bien que ce type de solution permette une bonne couverture avec un nombre relativement réduit de caméras fixes, néanmoins cela nécessite d'intégrer des caméras dans la zone à couvrir, ce qui peut perturber l'environnement, que ce soit un cockpit ou un poste de conduite.
Il existe d'autres solutions composites formées d'une part par un dispositif de « eye-tracking » basé sur des caméras fixées sur une monture portée par un sujet et fournissant une orientation du regard et une position de la pupille par rapport au repère de la monture, et d'autre part par un dispositif de « head-tracking » basé sur une caméra fixée sur la tête du sujet (on parle de « inside-out tracking ») avec des marqueurs posés dans la scène où évolue le sujet et qui déterminent la position de la tête dans le repère de ces marqueurs fixes. Par combinaison de ces deux mises en repère monture et marqueurs, la position du regard et de la pupille dans le repère des marqueurs fixes sont calculés. Bien que ce type de dispositif permette une très bonne couverture avec uniquement des marqueurs positionnés dans l'environnement où se situe le sujet, néanmoins l'ajout de ces marqueurs peut perturber l'environnement, que ce soit un cockpit ou un poste de conduite.
D'autres solutions composites sont formées d'une part par un dispositif de « eye- tracking » basé sur des caméras fixées sur une monture portée par un sujet et
fournissant une orientation du regard et de la position de la pupille par rapport au repère de la monture, et d'autre part par une caméra positionnée sur la monture et orientée vers l'avant, caméra dite égocentrique, fournissant une vidéo du champ d'observation par le sujet et sur laquelle un point localisant la position du regard peut être positionné après traitement. La vidéo de la caméra égocentrique peut être exploitée pour faire un traitement vidéo de recalage dans la scène sans marqueurs. Même si un tel dispositif permet de faire un recalage dans le repère de la scène, néanmoins il ne fonctionne pas en temps-réel mais en traitement décalé. Ainsi il ressort que les solutions existantes ne permettent pas d'exploiter la vidéo d'une caméra égocentrique pour faire des traitements de recalage temps-réel, parce que le champ de la caméra est trop petit, en particulier pour les utilisations de cockpit d'hélicoptères qui comportent de grandes zones vitrées transparentes sans élément de cabine qui soit visible par la caméra frontale.
Ainsi, il existe un besoin pour un dispositif et une méthode de capture, de mesure et d'analyse du regard qui fournisse en temps-réel, un positionnement d'un point regardé par un sujet, dans le repère d'une scène, sans avoir à réaliser d'intervention ou d'installation particulière qui modifie ou altère l'environnement dans lequel évolue le sujet (un cockpit ou un poste de conduite).
Il existe aussi le besoin d'un dispositif facilement acceptable par un sujet, qui ne le gêne pas ni ne l'entrave dans son comportement dans le cadre d'un entraînement par exemple, afin de ne pas créer de biais vis-à-vis d'une situation réelle.
Par ailleurs, il existe un besoin pour un dispositif et une méthode de capture, de mesure et d'analyse en temps-réel du regard qui permette pendant la formation et l'entraînement de pilotes, une couverture totale d'un cockpit ou d'un poste de conduite, en particulier les cockpits d'hélicoptère. En effet, l'analyse des données des systèmes existants est très souvent destinée à un usage de dépouillement ultérieur, soit pour des recherches sur le comportement humain, en vue de la conception d'objets industriels (automobiles, aéronefs), soit pour des études d'intérêt de personnes pour des objets dans un environnement où elles évoluent (comme par exemple des études visant la disposition de produits dans des surfaces de vente). L'analyse des données n'est en général pas faite en temps-réel durant une session opérationnelle pour une exploitation immédiate. Cependant, dans le domaine de la formation et de l'entraînement de pilotes où il existe un besoin pour la réalité augmentée et la réalité virtuelle, il est nécessaire de pouvoir faire du traitement temps-réel de la direction du regard, afin de désigner un
objet d'une scène avec le regard, soit pour demander son identification rapide via un service déporté, soit pour effectuer une action immédiate sur l'objet visé (par exemple, modifier virtuellement l'état d'un interrupteur réel ou virtuel vu dans un « Head Mounted Display » (HMD)), ou encore pour mémoriser sa position pour un service déporté (par exemple, mémoriser la localisation d'une cible pour la détruire ou pour la suivre).
Quelques approches de calcul temps-réel sont étudiées, mais les solutions nécessitent de positionner dans la scène observée des caméras ou des marqueurs qui peuvent modifier l'environnement, avec le risque associé de la perte de certification pour des simulateurs de formation et d'entraînement déjà certifiés. L'ajout de caméras et marqueurs peut influer et perturber le comportement du sujet dans son environnement, amenant une gêne ou des éléments non réalistes de l'environnement réel. Des solutions de laboratoire fonctionnelles ne sont pourtant pas assez précises ou peu fiables et fonctionnent à des fréquences trop faibles, et ne peuvent être utilisables en pratique par un équipage d'aéronef car étant trop encombrantes.
La présente invention propose de répondre aux besoins précités.
Résumé de l'invention Un objet de la présente invention est de proposer un dispositif et une méthode pour permettre la capture, la mesure et l'analyse en temps-réel du regard d'un sujet.
Avantageusement, le principe général de l'invention consiste à effectuer un recalage en 3D et en temps-réel dans la scène où évolue un sujet sans ajout de marqueurs, et sans modification de l'environnement.
Avantageusement, le dispositif de l'invention n'utilise pas de marqueurs ajoutés à l'environnement et permet d'exploiter des points caractéristiques existant naturellement dans les environnements de cockpit, cabines d'aéronef ou postes de pilotage, tels que des contrastes de matériaux, la boutonnique, les équipements, ....
Avantageusement, le recalage dans le repère de la scène est effectué à partir de l'exploitation d'un flux vidéo issu de caméras égocentriques intégrées au dispositif de l'invention.
L'invention a ainsi pour objet un dispositif allégé de type monture qui peut être porté par un sujet, équipé de caméras qui suivent le regard du sujet portant la monture, d'une ou plusieurs caméras égocentriques orientées vers l'environnement extérieur,
couplé à un module de traitement de données ou calculateur qui est apte à analyser et combiner en temps-réel les informations issues des captures des caméras et à effectuer un recalage en 3D dans le repère de la scène observée par le sujet.
L'invention trouvera des applications avantageuses dans les domaines du contrôle d'équipage, dit « Crew Monitoring », comme nouveau service pour le contrôle, l'analyse et l'évaluation du comportement d'un équipage. Le dispositif de l'invention peut être utilisé dans des simulateurs de pilotage existants sans avoir à dégrader ou à altérer les capacités et la certification du simulateur. Ainsi, l'invention a ainsi pour objet un dispositif pour analyser le regard d'un sujet observant depuis un cockpit d'aéronef une scène tridimensionnelle, le dispositif comprenant :
- un système de suivi des yeux apte à fournir des informations sur la direction d'au moins un œil du sujet dans un repère de mesures lié au dispositif ;
- un système de mesure de posture de tête apte à fournir des informations sur la position et l'orientation de la tête du sujet dans un repère de mesures lié à la scène observée par le sujet;
- un système de capture vidéo synchronisé avec les systèmes de suivi des yeux et de mesure de posture de tête, apte à capturer un flux vidéo instantané de la scène observée par le sujet; et
- un système de traitement de données en communication avec les systèmes de suivi des yeux, de mesure de posture de tête et de capture vidéo, configuré pour combiner les informations produites par les systèmes de suivi des yeux et de mesure de posture de tête pour calculer en temps-réel la direction du regard du sujet dans le repère de mesures lié à la scène observée par le sujet, et pour reprojeter en temps-réel dans le flux vidéo capturé, un marqueur correspondant à la position d'un point d'impact de la direction calculée du regard du sujet.
Selon des modes de réalisation, le dispositif de l'invention peut comprendre :
- un système de suivi des yeux qui comprend au moins une caméra dirigée vers la pupille d'au moins un œil permettant la capture de la position de l'œil ;
- un système de mesure de posture de tête qui comprend au moins une caméra égocentrique dirigée vers une zone prédéfinie de repérage dans la scène observée par le sujet ;
- un système de capture vidéo qui comprend une caméra égocentrique dirigée vers l'avant pour faire une capture vidéo du point de vue du sujet ;
- un système de suivi des yeux, un système de mesure de posture de tête et un système de capture vidéo, intégrés sur une monture de type lunettes ou sur une monture de type serre-tête ;
- un système de traitement de données couplé de manière filaire ou non-filaire aux systèmes de suivi des yeux, de mesure de posture de tête et de capture vidéo ;
- un système de traitement de données qui comprend un processeur configuré pour synchroniser les informations fournies par les systèmes de suivi des yeux et de mesure de posture de tête avec le système de capture vidéo, et pour :
- déterminer en temps-réel, à partir de la direction calculée du regard du sujet des coordonnées 3D d'un point d'impact dans un modèle tridimensionnel de la scène ;
- calculer en temps-réel, des coordonnées 2D correspondant à la position du point d'impact ; et
- incruster dans le flux vidéo de la scène, un marqueur à ladite position; - un système de traitement de données apte à communiquer à un poste distant des données relatives au point de la scène regardé par le sujet , ledit poste distant comprenant une interface homme-machine apte à afficher la scène observée par le sujet sous la forme d'un modèle tridimensionnel et à afficher le point de la scène regardé par le sujet sur ledit modèle tridimensionnel ; Selon des modes de réalisation, le poste de visualisation distant comprend une interface homme-machine apte à afficher la scène sous la forme d'un modèle tridimensionnel. Dans une variante, le point regardé qui est calculé par le processeur est affiché sur le modèle tridimensionnel.
L'invention couvre aussi un procédé pour analyser en temps-réel le regard d'un sujet observant depuis un cockpit d'aéronef une scène tridimensionnelle, le procédé comprenant les étapes suivantes:
- générer par un système de suivi des yeux agencé sur un support porté par le sujet, des informations sur la direction d'au moins un œil du sujet dans un repère de mesures lié au support;
- générer par un système de mesure de posture de tête, des informations sur la position et l'orientation de la tête du sujet dans un repère de mesures lié à la scène observée par le sujet;
- capturer par un système de capture vidéo synchronisé avec les systèmes de suivi des yeux et de mesure de posture de tête, un flux vidéo instantané de la scène observée par le sujet;
- combiner les informations produites par les systèmes de suivi des yeux et de mesure de posture de tête, pour calculer en temps-réel la direction du regard du sujet dans le repère de mesures lié à la scène observée par le sujet ; et
- reprojeter en temps-réel dans le flux vidéo capturé un marqueur correspondant à la position d'un point d'impact de la direction calculée du regard du sujet.
Selon des variantes d'implémentation du procédé:
- l'étape de générer des informations sur la direction d'au moins un œil comprend l'utilisation d'algorithme de « mapping ».
- l'étape de générer des informations sur la position et l'orientation de la tête du sujet comprend l'utilisation d'algorithme basé sur la localisation et la cartographie simultanée ;
- l'étape de générer des informations sur la position et l'orientation de la tête du sujet comprend l'utilisation d'un algorithme de fusion de capteurs à filtre de Kalman ;
- l'étape de calculer la direction du regard du sujet dans le repère de mesures lié à la scène observée consiste à déterminer un point de la scène regardé par le sujet, et l'étape de reprojection consiste à :
- déterminer en temps-réel, à partir de la direction calculée du regard du sujet des coordonnées 3D d'un point d'impact dans le modèle tridimensionnel de la scène ;
- calculer en temps-réel, des coordonnées 2D correspondant à la position du point d'impact ; et
- incruster dans le flux vidéo de la scène, un marqueur à ladite position.
- une étape initiale incluant une étape de modélisation et une étape de calibration est réalisée. L'étape de modélisation permet de générer un modèle tridimensionnel de la scène, et l'étape de calibration permet de calibrer les systèmes de suivi des yeux, de mesure de posture de tête et de capture vidéo.
L'invention couvre aussi un produit programme d'ordinateur, ledit programme d'ordinateur comprenant des instructions de code permettant d'effectuer les étapes du procédé d'analyse en temps-réel du regard d'un sujet observant une scène, lorsque ledit programme est exécuté sur un ordinateur.
Description des figures
Différents aspects et avantages de l'invention vont apparaître en appui de la description d'un mode préféré d'implémentation de l'invention mais non limitatif, avec référence aux figures ci-dessous :
La figure 1 illustre schématiquement le dispositif de l'invention selon un mode de réalisation lunette; La figure 2 illustre schématiquement le dispositif de l'invention selon un mode de réalisation serre-tête;
La figure 3 montre des enchaînements d'étapes du procédé de capture d'une scène selon un mode de réalisation;
La figure 4 montre des enchaînements d'étapes du procédé de l'invention selon un mode de réalisation ;
La figure 5 illustre schématiquement l'utilisation du dispositif de l'invention selon la figure 1 dans un environnement de cockpit.
Description détaillée de l'invention
D'une manière générale, la problématique résolue par l'invention est celle de fournir un dispositif léger permettant la capture, la mesure et l'analyse en temps-réel du regard d'un sujet, sans recourir à des ajouts de matériel ou de marqueurs dans l'environnement d'évolution. La légèreté du dispositif et sa non-intrusivité dans la scène le rendent facilement intégrable dans tout environnement d'instruction et de formation, même dans des aéronefs en vol. Le dispositif permet de plus, dans le cadre d'une session d'entraînement ou de formation, l'affichage de l'impact de la direction du regard sur la scène, vue d'un observateur, qui peut être situé à une position et une orientation quelconques dans ou en dehors de la scène. La restitution temps-réel de l'analyse du regard du sujet lui apporte une compréhension dans la répartition des zones observées, dans l'enchaînement de ses actions et de sa maîtrise des procédures et de la situation. La restitution temps-réel de l'analyse du regard fournie à l'instructeur lui permet de réagir au cours de l'exercice. Dans le cadre de la description, on définit la restitution temps-réel comme étant la capacité à restituer dans un temps permettant à un instructeur de réagir à chaud au cours d'un exercice de formation ou d'entraînement en exécution, et de réagir sur le scénario en cours. L'ordre de grandeur de cette capacité temps-réel peut varier de quelques dizaines de millisecondes à quelques secondes (voire minutes) en fonction du dispositif de restitution envisagé et des grandeurs et indicateurs utilisés pour remonter l'information pertinente à l'instructeur. Les calculs sur chaque donnée et à chaque étape du procédé ont une durée égale ou inférieure au temps d'échantillonnage, typiquement 60 échantillons secondes ou moins, et l'ensemble du procédé n'excédant pas trois cycles d'échantillonnage.
La restitution peut comporter à la fois des paramètres bruts, et des paramètres composés à partir des paramètres bruts et calculés sur des fenêtres temporelles. Elle permet ainsi à l'instructeur de disposer des informations qui lui permettent de réagir directement au cours de l'exercice/session et d'apporter des évolutions dans le déroulé de l'exercice, des recommandations, des alertes, etc. permettant ainsi plus facilement
d'adapter la session de formation au comportement de l'élève et de lui prodiguer des conseils.
D'une manière générale, le dispositif de l'invention peut être implémenté comme un système portable par un sujet, qui peut prendre diverses formes. Deux exemples sont décrits, pour expliquer les principes de l'invention, mais ne sont pas limitatifs, et d'autre formes de réalisation peuvent être déclinées. Ainsi, la figure 1 illustre schématiquement un dispositif (100) de mesure temps-réel du regard selon un mode de réalisation de l'invention de type lunette. La forme, le design de la lunette représentée en figure 1 sont simplifiés pour permettre une description claire des caractéristiques du dispositif de l'invention.
Il n'est pas détaillé la structure d'une lunette (ou paire de lunettes) qui comprend généralement deux zones dans une partie frontale (1 02) de la monture (pour insérer des verres dans le cadre d'un paire de lunette correctrice ou solaire), et des branches (104) qui sont reliées à la partie frontale. La partie frontale (102) comprend généralement un pontet central (106) qui prend appuie sur le nez. Dans l'exemple du dispositif de l'invention, la configuration de la lunette permet qu'elle soit portée de manière stable par un sujet. Les éléments peuvent être réalisés dans des matériaux plastiques ou métalliques ou autres permettant l'insertion de capteurs et autres composants du dispositif.
Le dispositif (100) comprend un système de suivi des yeux apte à effectuer une mesure de la direction de chaque œil, composé d'une caméra (108, 1 10) pour suivre chaque œil. Chaque caméra est positionnée sur la lunette de manière à être dirigée vers la pupille et permettre la capture de la position respective d'un œil. Dans une réalisation préférentielle, les caméras sont disposées sur la partie inférieure de la monture.
Selon les modes de réalisation, les caméras de suivi des yeux sont des caméras configurées pour utiliser le spectre visible dans le cas d'un procédé de mesure basé sur l'analyse d'image sans source de lumière spécifique. Alternativement, elles peuvent être configurées pour utiliser le spectre infrarouge proche du visible dans le cas de l'utilisation d'une source de lumière externe (source fournie par exemple par des « led » (Light Emitting Diode) Infrarouge générant des éclairs ou « glints » en anglais permettant d'obtenir des mesures plus précises.
Le dispositif (100) comprend aussi un système de mesure de la posture de la tête, qui est composé d'au moins une caméra égocentrique (1 14, 1 1 6) positionnée sur la lunette de manière à être dirigée vers une zone prédéfinie de repérage dans la scène observée par le sujet. La zone de repérage peut être définie comme étant une zone dans le haut de la scène ou au-dessus de la tête du sujet. Le système de mesure de la posture de la tête permet de faire la mesure de la position et de l'orientation de la tête du sujet dans le repère de la scène relativement à une zone de repérage prédéfinie.
Le dispositif (100) comprend aussi une caméra égocentrique (1 12) disposée en partie centrale avant (106) de la monture, sur le plan médian entre les deux yeux du sujet. La caméra (1 12) est dirigée vers l'avant pour faire une capture vidéo du point de vue de l'observateur. Dans un mode de réalisation, la caméra centrale (1 12) peut servir aussi à faire la mesure de la position et de l'orientation de la tête, en particulier pour les cas où la focale est suffisamment courte, ou pour certaines configurations de scène où les éléments opaques occupent un volume important.
Selon les modes de réalisation, les caméras égocentriques peuvent être des caméras courtes focales dans le domaine spectral visible ou proche infrarouge, ou des Z caméras courtes focales donnant une information de distance de la scène sur chaque pixel (LIDAR), ou des caméras « Light Field Area » donnant une information de la direction d'arrivée du rayon optique sur chaque pixel de la caméra.
Dans un mode de réalisation particulier où la vitesse des caméras de mesure de la posture de la tête est insuffisante pour obtenir des temps de réponse souhaités (par exemple < 200Hz), une microcentrale inertielle « IMU » (1 18) composée d'un gyroscope 3 axes et d'un accéléromètre 3 axes, peut être ajoutée au dispositif de l'invention et intégrée dans la monture. Dans les applications où le simulateur est une plateforme qui bouge, l'usage d'une IMU dans la monture peut nécessiter l'ajout d'une seconde IMU fixée sur la cabine pour améliorer les mesures des mouvements de la cabine. La différence de mesure entre les 2 IMUs permet de corriger les erreurs de mesures inertielles introduites par les mouvements de la cabine. Une alternative à l'ajout d'une seconde microcentrale inertielle peut consister à utiliser des informations de position et d'orientation temps-réel de la cabine par rapport au référentiel inertiel fournies par un autre dispositif de mesure.
Le dispositif de l'invention comprend aussi un système de traitement de données en communication avec les systèmes de suivi des yeux, de mesure de posture de tête et de capture vidéo apte à recevoir et combiner les informations produites par les
différents capteurs. Le système de traitement de données peut être un processeur de calcul embarqué couplé aux différents capteurs de manière filaire ou sans-fil (selon des technologies connues de type WiFi, RFID par exemple) configuré pour calculer en temps-réel la direction du regard du sujet dans le repère de mesure lié à la scène observée par le sujet.
Le système de traitement de données peut être intégré dans un boîtier directement attaché à la monture ou être placé dans le cockpit de manière à ne pas entraver les mouvements du sujet. La figure 2 illustre schématiquement sous une vue de profil un dispositif (200) de mesure temps-réel du regard selon un mode de réalisation de l'invention de type serre- tête. Le serre-tête est généralement maintenu sur la tête du sujet par un serrage arrière (202) et un appui frontal (204). Dans cette variante d'implémentation, le dispositif est fixé par le haut sur la structure du serre-tête, et comprend un système de suivi des yeux apte à effectuer une mesure de la direction de chaque œil, composé d'au moins une caméra (108) dirigée vers la pupille pour suivre les mouvements d'un œil et permettre la capture de la position respective de l'œil. Bien que non illustré, dans une variante de réalisation, une deuxième caméra peut être positionnée de manière symétrique pour suivre les mouvements du deuxième œil. Le dispositif (200) comprend aussi un système de mesure de la posture de la tête, composé d'au moins une caméra égocentrique (1 14, 1 1 6) positionnée sur la monture de manière à être dirigée vers le haut de la scène que le sujet va observer ou au-dessus de sa tête. Le système de mesure de la posture de la tête permet de faire la mesure de la position et de l'orientation de la tête du sujet dans le repère de la scène. Le dispositif (200) comprend aussi une caméra égocentrique (1 12) dirigée vers l'avant pour faire une capture vidéo du point de vue de l'observateur. La caméra égocentrique de capture de flux vidéo peut être disposée dans le plan vertical d'un œil pour les réalisations de type monoculaire ou être positionnée dans un plan vertical médian entre les deux yeux du sujet pour les réalisations de type binoculaire.
La figure 3 montre des enchaînements d'étapes du procédé (300) de capture d'une scène selon un mode de réalisation. Une phase de préparation (dite « off-line ») relative à l'environnement où va évoluer un sujet, est opérée avant la mise en œuvre (ou phase « on-line ») du procédé de mesure du regard en temps-réel, décrit en
référence à la figure 4. Cette phase de préparation consiste en la capture de la scène qui va être la scène observée par le sujet et sur laquelle portera son regard. Le procédé de capture de la scène comporte une étape (302) d'acquisition d'un modèle tridimensionnel (3D) de la totalité de la scène. Dans le cas d'un cockpit, l'intégralité de la scène couvre la planche de bord, le plafonnier, le piédestal, mais également la verrière, les parois latérales, et l'arrière du cockpit. L'étape (302) permet l'acquisition d'un modèle précis, avec une précision pouvant être millimétrique pour la mesure de la posture de la tête, couvrant l'ensemble de la scène d'opération. Le modèle 3D de la scène sert ultérieurement d'objet virtuel de référence lors de l'étape du recalage de la posture de la tête du sujet (détaillé en référence à la figure 4). Dans un mode de réalisation, l'acquisition du modèle 3D peut être réalisée à partir d'un scan 3D.
Avantageusement, le modèle 3D généré sert de plus comme objet d'affichage 3D synthétique sur une interface homme-machine (IHM) dans lequel il est possible d'ajouter des éléments qui peuvent être utiles à un instructeur ou à un opérateur chargé d'exploiter les données analysées par le processeur.
Dans une étape suivante (304) du procédé, des zones d'intérêt sont représentées sur le modèle 3D généré à l'étape précédente. Dans un mode de réalisation, les zones d'intérêt sont représentées sous forme de surfaces labellisées. Les surfaces labellisées représentent une segmentation de la scène correspondant à des éléments pour lesquels le procédé de mesure du regard en temps-réel, déterminera s'ils sont instantanément regardés. Dans le cas d'un cockpit, les zones labellisées peuvent correspondre à des parties du tableau de bord, à des instruments, à des secteurs aperçus au travers de la verrière, à des zones occupées par les autres membres d'équipage, etc. Les zones d'intérêt peuvent être définies selon l'application et la scène où évolue le sujet. Cette étape (304) permet d'obtenir un modèle 3D labellisé de la scène d'opération.
Le procédé de capture de la scène comprend aussi une étape (306) d'acquisition d'une image photographique de la totalité de la scène d'opération. Des photo-textures sont créées dans une étape suivante (308). Avantageusement, pour que les photo- textures soient les plus réalistes possibles elles sont créées sous plusieurs ambiances : ambiance de jour et ambiance de nuit, par exemple. D'autres conditions peuvent être prévues, comme ambiances de jour plus ou moins ensoleillé, nuageux, pluvieux, etc, ambiances de soleil levant, soleil couchant, ambiances de nuit avec et sans lune, etc.
Dans une étape suivante (310), les photo-textures sont combinées avec le modèle 3D labellisé (304).
Le procédé permet ensuite (312) de générer un objet 3D photo réaliste dans un repère unifié de la scène, dans différentes conditions d'éclairage. Cet objet est alors en cohérence directe avec la mesure du regard qui est effectué selon le procédé de l'invention dans ce même repère de la scène. Le modèle peut être transmis sur un poste déporté et ainsi en phase opérationnelle, être observé par un instructeur quelque- soit l'angle de vue et la position du point d'observation. La phase de préparation consiste aussi en une phase de calibration du dispositif de l'invention. La calibration couvre la calibration des composants matériels et logiciels. Elle consiste à calibrer les caméras dirigées sur la pupille, la ou les caméras egocentriques, le dispositif de mesure de la position et orientation de la tête dans le repère de la scène. Dans l'implémentation avec microcentrale inertielle, la calibration couvre la micro centrale inertielle de la monture ou de la tête et celle de la microcentrale inertielle attachée à la scène. La calibration porte aussi (via la position de la pupille et des « glints » et éventuellement via un modèle de l'œil théorique initial) sur l'algorithme qui permet de mesurer la direction du regard dans le repère de la monture La calibration porte aussi sur l'algorithme de transformation de la mesure de la direction du regard du repère de la monture ou de la tête dans le repère de la scène.
La figure 4 montre selon un mode de réalisation, des enchaînements d'étapes du procédé (400) de l'invention pour la mesure du regard en temps-réel. D'une manière générale, les étapes de calcul sont opérées par le système de traitements de données embarqué et selon le principe de l'invention, le procédé permet après la capture instantanée d'un ensemble de paramètres du regard, le recalage en temps-réel de cette capture vis-à-vis du repère de la scène où évolue un sujet dont le regard est mesuré.
Dans une première étape (402), le procédé permet la capture de la position des yeux (ou au moins d'un œil) par rapport à la monture à l'aide de la caméra correspondante (108, 1 10) positionnée dans la partie inférieure de la monture. La capture des données se fait de manière préférentielle à une fréquence de 60 ou 120 Hz. Les informations capturées concernent à la fois la direction des yeux, mais également les paramètres intrinsèques de l'œil, tels que l'ouverture, la dilatation de la pupille, le clignement de l'œil, etc. Cette étape permet de renseigner sur la direction
des yeux dans le référentiel de la monture (type lunette ou autre support constituant le référentiel porté par le sujet).
Le calcul de la direction des yeux peut être effectué selon différentes techniques algorithmiques, par exemple celles dites de « mapping 2D-2D, ou 3D-3D ou 2D-3D, décrites dans l'article de Mansouryar et al. 201 6, « 3D Gaze Estimation from 2D Pupil Positions on Monocular Head-Mounted Eye Trackers ».
Dans une étape simultanée (404), le procédé permet la capture des vidéos des caméras égocentriques (1 14, 1 1 6) du système de mesure de la posture de la tête installées sur la monture, pour calculer en temps-réel la posture de la monture et donc de la tête (en orientation et en position) dans le repère de la scène. Différentes méthodes ou algorithmes connus peuvent être utilisés pour effectuer ce calcul.
Une première technique est basée sur la localisation et la cartographie simultanée comme par exemple, la méthode « SLAM » pour Simultaneous Localization And Mapping en anglais ou la méthode « CML » pour Concurrent Mapping and Localization en anglais, qui peut être assistée et accélérée avec l'aide du modèle 3D de la scène déjà construit.
Une autre approche peut consister à se baser uniquement sur le modèle 3D photoréalisme et effectuer un calcul de pose sans utiliser de localisation basée sur l'historique des images vidéo, mais utiliser une localisation basée sur une seule image vidéo.
Il est à noter que l'utilisation de plusieurs caméras permet d'améliorer la précision des mesures et la fiabilité.
Avantageusement, l'utilisation d'un algorithme de fusion de capteurs à filtre de Kalman permet d'obtenir une précision égale à celle obtenue par le calcul de la posture de la tête par la caméra vidéo, mais elle est augmentée d'un temps de réponse et d'une fréquence d'échantillonnage équivalent à celui d'une centrale inertielle.
Ainsi, cette étape (404) permet de fournir des informations sur la posture de la tête (ou la monture portée par le sujet) dans le référentiel de la scène.
Dans une étape simultanée (406), le procédé permet la capture vidéo par la caméra égocentrique centrale (1 12) du point de vue du sujet. La capture de la vidéo se fait de manière préférentielle à une fréquence de 24 ou 30 Hz, mais peut aussi se faire à des fréquences supérieures. Cette étape permet d'obtenir un flux vidéo instantané dans la direction de la tête, la caméra égocentrique étant positionnée sur la monture.
Les étapes de captures des paramètres relatifs aux yeux, à la tête et de vidéo sont effectuées par les différents capteurs intégrés à une monture (40).
Dans une étape suivante (408) opérée par le processeur embarqué (50), le procédé permet de faire en temps-réel un calcul de changement de repère de la direction du regard. En utilisant les informations issues des capteurs yeux, tête et vidéo, le procédé permet de recaler les deux vecteurs de direction des yeux calculés lors de l'étape de détermination de la direction des yeux, afin de déterminer la direction du regard dans le repère de la scène, et déterminer un point regardé.
L'étape (408) est une reprojection en temps-réel d'un marqueur dans le flux vidéo. De manière plus détaillée, la reprojection qui consiste à changer les coordonnées d'un point dans un système en des coordonnées dans un autre système, est opérée en temps-réel. La direction des yeux est projetée dans le modèle 3D, ce qui donne un point d'impact de coordonnées (X, Y, Z) dans le modèle tridimensionnel. A partir de ce point d'impact 3D, il est calculé des coordonnées équivalentes 2D (X, Y) dans l'image vidéo. Un marqueur est incrusté en temps-réel dans le flux vidéo de la scène, à la positon (X, Y) calculée (410).
Ainsi, le procédé proposé permet par un traitement temps-réel de déterminer la position du regard d'un sujet, contrairement à la plupart des procédés connus pour les dispositifs portés qui n'effectuent pas la restitution d'un point observé en temps-réel, mais dans une phase ultérieure à la session, en dépouillement. Par ailleurs, le procédé de l'invention permet un recalage de la position du point regardé dans le repère de la scène, contrairement à la plupart des procédés connus pour des dispositifs portés qui recalent dans le repère local de la monture, le point regardé dans une image. Avantageusement, le procédé temps-réel de l'invention opère sans avoir recours à l'installation d'éléments ou de marqueurs ou de matériel (capteur, caméra) modifiant la scène observée. L'utilisation d'une caméra égocentrique installée sur la monture pour réaliser le recalage dans le repère de la scène associée aux traitements des différentes données relevées, permet par le traitement effectué par le processeur, le recalage dans le repère de la scène sans marqueur.
Dans des étapes suivantes (410, 412), le procédé permet d'incruster en temps- réel dans le flux vidéo de la caméra égocentrique frontale et sur le modèle photo réaliste 3D qui est affiché sur un poste distant, le point d'intersection de la direction du regard avec la scène. L'impact du regard peut être représenté sur la vidéo
symboliquement par un point ou par toute autre forme, par des techniques conventionnelles que l'homme du métier peut appliquer. Sur la représentation 3D du cockpit, l'impact du regard peut être représenté par un point en surbrillance par exemple ou par une surbrillance de l'élément regardé (instrument ou autre), aussi par des techniques conventionnelles. D'autres paramètres utiles comme une carte de chaleur des fixations ou des saccades peuvent être représentés sur l'interface de l'observateur (ou l'instructeur) qui observe une scène dynamique 3D synthétique de la position, avec un angle modifiable en temps-réel.
La figure 5 illustre de manière schématique un cockpit (500), où un pilote (ou copilote) porte une monture de type lunette équipée du dispositif de l'invention (100). Le cockpit dans l'exemple choisi, comprend deux sièges de pilotages. Bien que l'illustration ne montre qu'un seul pilote équipé d'une monture, l'homme du métier peut étendre les principes décrits à une utilisation par chacun des pilotes. Le cockpit comprend aussi sur un tableau de bord (502) des écrans d'affichage (504-1 à 502-n), des actuateurs, des manettes et autres instruments conventionnels d'un poste de pilotage. Pour la phase de préparation et de capture de la scène pour l'acquisition du modèle 3D, la scène considérée est constituée par l'environnement du pilote et couvre le tableau de bord (502), le plafonnier (506), la verrière (508), les parois latérales (510), la console centrale (512), le plancher, l'arrière du cockpit. Les zones d'intérêt qui sont représentées sous forme de surfaces labellisées correspondent à des éléments de l'environnement, et peuvent être des parties du tableau de bord, des instruments, des zones visibles derrière la verrière, une zone occupée par un autre pilote, etc.. Le dispositif de l'invention porté par le pilote permet par l'analyse des mesures fournies par les différents capteurs (suivi des yeux, posture de tête, flux vidéo instantané) au processeur embarqué (non illustré) de déterminer en temps-réel la direction du regard du pilote (illustrée par la flèche noire).
Ainsi l'invention apporte des innovations notables sur les aspects suivants:
- solution complètement intégrée dans une monture portée par un sujet ;
- solution qui ne nécessite pas l'ajout de dispositif complémentaire (caméras et/ou marqueurs) dans l'environnement ;
- solution qui fournit un recalage en temps-réel dans un repère de scène ;
- solution qui permet à un instructeur dans un simulateur de voir en temps-réel de manière détaillée et précise les postures de l'équipage, associées à la direction du regard et aux équipements regardés ;
- solution qui permet à un instructeur de détecter des situations d'attention et d'inattention d'un équipage ;
- solution qui permet de mieux évaluer la pertinence immédiate de la formation apportée.
La présente description illustre une implémentation préférentielle de l'invention, mais n'est pas limitative. Des exemples ont été choisis pour permettre une bonne compréhension des principes de l'invention, et une application concrète à l'environnement des cockpits, mais ne sont en rien exhaustifs et doivent permettre à l'homme du métier d'apporter des modifications et des variantes d'implémentation en gardant les mêmes principes.