WO2015082293A1

WO2015082293A1 - Reconnaissance de formes par correction d'image

Info

Publication number: WO2015082293A1
Application number: PCT/EP2014/075764
Authority: WO
Inventors: Nicolas Allezard; Mohamed CHAOUCH; Brice BURGER
Original assignee: Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority date: 2013-12-02
Filing date: 2014-11-27
Publication date: 2015-06-11
Also published as: FR3014229B1; FR3014229A1

Abstract

La présente invention concerne une méthode d'analyse du contenu d'une image, comprenant des étapes de réception de l'indication d'une zone d'intérêt dans l'image ainsi que de paramètres associés à la zone d'intérêt et de normalisation, à l'aide de ces paramètres, de la portion de l'image correspondant à la zone d'intérêt de manière à obtenir une portion d'image modifiée de dimensions comparables avec un ou plusieurs modèles prédéfinis. Des développements comprennent des aspects de classification automatique, de qualification de zones en cibles ou obstacles, de définitions de zones de danger, de filtrage par motifs, de balayage de l'image par des modèles prédéfinis sur le plan du sol. Les aspects de système incluent l'emploi de caméras Time-of-Flight, infrarouge ou stéréoscopique, de radars et de capteurs 3D.

Description

RECONNAISSANCE DE FORMES PAR CORRECTION D'IMAGE

Domaine de l'invention

L'invention concerne le domaine du traitement d'image et en particulier celui de la reconnaissance des formes par analyse du contenu de l'image. Spécifiquement, l'invention concerne la détection de modèles prédéfinis, comme des piétons présents sur un chantier ou sur la chaussée.

Etat de la Technique

Les solutions existantes pour la détection d'objets ou "cibles" (au sens de modèles connus et recherchés, comme des personnes, des véhicules ou tout autre objet de forme connue), par analyse d'image fixes ou de flux vidéo, sont relativement imparfaites.

Les images fournies par les capteurs d'acquisition d'images présentent des distorsions géométriques, d'autant plus importantes que le capteur est incliné par rapport à la scène observée. Ces distorsions engendrent un écart d'apparence significatif entre le modèle recherché (« cible idéale ») et son observation réelle. Pour remédier à ces distorsions géométriques, il est connu dans une première approche d'essayer de compenser l'inclinaison de façon globale en appliquant une homographie (application projective) sur l'image globale pour en déduire une image redressée. Le principe sous- jacent consiste donc à traiter l'image globalement (par redressement). Mais cette approche engendre à son tour des distorsions de perspective (étirements de certaines parties de l'image) et génère des images supplémentaires, dont il faut assurer le stockage (qui peut devenir volumineux).

Selon une seconde approche, il est connu de réaliser un apprentissage approprié pour chaque configuration d'utilisation et pour chaque zone de l'image. Cette approche n'est pas automatisée ni automatisable, les modèles de classification n'étant pas génériques. Le cas échéant, une telle approche requiert une grande quantité de données d'apprentissage et le processus complet peut être de longue durée (acquisition, labellisation et apprentissage).

L'article intitulé "Scène warping: Layer-based stereoscopic image resizing" par Ken-Yi Lee, Cheng-Da Chung et Yung-Yu Chuang, paru dans Computer Vision and Pattern Récognition (IEEE Conférence pages 49-56, 1 6-21 juin 2012) présente une approche spécifique quant à une déformation de scène et un redimensionnement d'image stéréoscopique. Cette approche présente des inconvénients que la présente invention se propose de palier, au moins en partie.

Résumé de l'invention

Certains modes de réalisation de l'invention visent à fournir un procédé pour la reconnaissance de formes et en particulier de reconnaissance d'objets ou de "cibles" par comparaison d'observations issues de capteurs fixes ou mobiles (par exemple de type caméra) avec un ou plusieurs modèles des objets ou cibles ainsi prédéfinis et connus (ces modèles pouvant notamment aussi être issu d'un apprentissage statistique). Selon certains modes de réalisation particuliers, il est proposé de corriger l'image de façon locale et par rotation 2D. Cela présente le double avantage d'éviter la distorsion de perspective (ce qui améliore par suite les performances de détection) et de ne stocker en sus qu'une fraction de l'image.

Avantageusement, certains modes de réalisation de l'invention permettent de conserver un bon niveau de performance quant à la mesure de similarité entre le modèle et l'observation (pouvant aboutir à une classification), quelle que soit la position de la cible dans la scène et quelles que soient les conditions d'acquisition des images (hauteur et inclinaison des capteurs d'acquisition d'images).

L'invention trouvera avantageusement application pour de la vidéosurveillance ou de la vidéo-protection. Des exemples d'utilisation pourront comprendre: la détection de piétons dans les espaces publics; l'évitement de collisions en situation de circulation urbaine à l'aide de capteurs fixes ou de capteurs de vision embarqués sur des véhicules en contexte de conduite automatisée; la minimisation des risques de collisions entre des engins ou des robots et des piétons sur un chantier, dans l'enceinte d'une usine, ou en entrepôt logistique; la surveillance de lieux ou d'installation (par exemple par la détection d'intrus, la recherche et la détection de colis abandonnés dans un espace public fréquenté de type aéroport, la détection et la classification de véhicules, etc.); et généralement en toute situation de protection de personnes par rapport à des dangers extérieurs.

Dans le cas d'une détection utilisant un apprentissage statistique, il est avantageux d'entraîner le modèle avec des exemples redressés et redimensionnés. Dans certains modes de réalisation, il est divulgué de corriger l'image de façon locale et par rotation 2D. Cela présente le double avantage d'éviter une distorsion de la perspective (améliorant par suite les performances de détection) et de ne stocker en sus qu'une fraction de l'image.

Dans un développement, il est divulgué une méthode d'analyse du contenu d'une image, comprenant les étapes de réception de l'indication d'une zone d'intérêt dans l'image et de paramètres associés à la zone d'intérêt; et une normalisation à l'aide des paramètres associés de la portion de l'image correspondant à la zone d'intérêt de manière à obtenir une portion d'image modifiée de dimensions comparables avec un ou plusieurs modèles prédéfinis. Dans un développement, une zone d'intérêt est désignée (par exemple par un module externe ou une technique de filtrage par motif au sens large). Concrètement, par exemple, une délimitation de l'image ou des coordonnées de pixels ou une portion de l'image est désignée et reçue (le terme "indication" renvoie au fait qu'une référence peut être suffisante, il peut ne pas être besoin de transmettre les informations de pixels de la portion d'image). Accompagnant cette réception de l'indication d'une zone d'intérêt (ou réception de la zone d'intérêt en soi), des paramètres sont reçus (simultanément, ou avant, ou après). Ces paramètres notamment peuvent comprendre des informations de coordonnées qui vont servir à l'étape suivante de normalisation (ou de redressement et/ou de redimensionnement). Selon les systèmes de coordonnées (x,y,z), polaire, sphérique, etc. ces informations prendront plusieurs formes (équivalentes). Selon un certain repère ou système de coordonnées, il est besoin de connaître la position de la zone d'intérêt dans le contenu de l'image (pixels de l'image, contenu 2D), ainsi qu'une information de profondeur ("depth" ou "z") relative à cette zone d'intérêt. Ces paramètres servent à la normalisation de la portion d'image. En d'autres termes et par exemple, la normalisation sera différente pour une zone d'intérêt située près des bords de l'image et pour une zone d'intérêt située en plein centre de l'image (là où les déformations optiques sont les moins importantes, du moins en théorie). La normalisation comprend une ou plusieurs transformations géométriques et/ou photométriques. L'étape de normalisation peut notamment comprendre une ou plusieurs des opérations telles déplacement, rotation, mise à l'échelle, recalage, etc. L'étape de normalisation est détaillée ci-après. La zone d'intérêt peut être reçue d'un module externe (par exemple spécialisé) ou bien déduite de l'analyse du contenu de l'image ou des frames vidéo. Néanmoins l'étape de détection de la zone d'intérêt est une étape optionnelle. L'expression "dimensions comparables" désigne des expressions telles que "mêmes dimensions" ou "dimensions similaires", c'est-à-dire de manière au moins suffisante pour pouvoir procéder aux comparaisons avec les objets de la base de connaissance. Cette base de connaissances est une base de données interrogeable, qui contient des modèles ou objets prédéfinis. Des développements spécifiques sur ces modèles sont fournis ci-après. Dans un développement, la normalisation de la portion d'image comprend une ou plusieurs transformations géométriques et photométriques de la portion d'image, notamment le redressement et le redimensionnement du contenu de la portion de l'image. L'expression "transformation géométrique et photométrique de normalisation" peut se réduite à l'expression générale "normalisation". Une transformation géométrique comprend des déplacements (conservant les distances et les angles orientés), des isométries (conservant les distances et les angles), les similitudes (conservant les rapports de distance), les transformations affines (conservant les parallélismes), les transformations homographiques (conservant les droites), et les inversions (conservant l'ensemble des droites et des cercles dans le cas plan). Une transformation peut aussi comprendre une ou plusieurs transformations bidifférentiables (ou difféomorphismes), des transformations conformes ou anticonformes (conservant les angles), des transformations équivalentes ou équiaréales (conservant les aires dans le cas plan), des transformations bicontinues ou homéomorphismes (conservant les voisinages des points), des déplacements (réflexions, des symétries centrales, des translations, des rotations), des homothéties, des affinités. Une transformation photométrique désigne une ou plusieurs opérations de correction ou de modification relatives au flux lumineux, à l'intensité lumineuse, à l'éclairement, à la luminance, l'exposition (lumination), clarté et colorimétrie, etc.

Dans un développement, la méthode comprend en outre la réception d'une estimation du plan du sol dans le contenu de l'image.

Le sol est celui représenté dans le contenu de l'image. Le plan du sol, son estimation ou son "équation" (mathématique exacte, voire MNT, ou son approximation planaire) peut être directement estimé (depuis la reconstruction 3D de la scène capturée en 2D par exemple) ou indirectement fournie par les moyens de prise de vue (caméra TOF, caméra stéréoscopique, etc.). L'utilisation d'une estimation du sol (et dans un sous cas particulier d'une estimation du plan du sol) permet une optimisation avantageuse pour les calculs en aval. Le plan du sol permet notamment les étapes de balayage par motifs ("par boîte") de manière efficace. Cette utilisation reste néanmoins optionnelle et dans tous les cas peut être obtenue par des moyens divers. Dans le cas d'une implémentation vidéo, l'accumulation d'informations peut permettre une détermination plus sûre du plan du sol. Dans un développement, le plan du sol est estimé par la reconstruction en trois dimensions de la scène représentée dans le contenu de l'image. Dans un développement, la reconstruction en trois dimensions de la scène représentée dans le contenu de l'image s'effectuant par appariement de points en correspondance entre deux images de type stéréoscopique. Dans un développement, la méthode comprend en outre une étape de calcul de mesure de similarité entre la zone d'intérêt normalisée et un ou plusieurs modèles prédéfinis. Une mesure de similarité correspond à un calcul de distance. Différents calculs de similarité peuvent être exécutés en parallèle (systèmes concourants). Il n'est pas forcément nécessaire d'arriver à des décisions binaires ("piéton" oui/non) car des approches probabilistes (e.g. 30%-70%) peuvent être utiles dans certaines situations.

Dans un développement, la méthode comprend en outre une étape de classification automatique de la zone d'intérêt normalisée par comparaison avec un ou plusieurs modèles prédéfinis. Il peut être appliqué un ou plusieurs seuils prédéfinis (statiques ou dynamiques). Ceci demeure entièrement optionnel. Dans un développement, un modèle prédéfini est un design CAO ou un dessin manuel ou une image ou un objet résultant d'un apprentissage statistique.

Dans un développement, la méthode comprend en outre une étape de qualification de la zone d'intérêt en cible ou en obstacle et une étape de définition d'une zone de danger associée à la cible et/ou l'obstacle, ladite zone de danger comprenant ou étant associée à une longueur ou une surface ou un intervalle de temps.

Dans un mode de réalisation, les moyens d'acquisitions d'image sont fixes et la zone de danger peut être statique ou invariante, par exemple mesurée en mètres autour de la zone d'intérêt. Dans d'autres modes de réalisation, la zone de danger peut être continuellement (ou au moins de manière intermittente, régulière ou irrégulière) réévaluée. Par exemple, dans le cas où les moyens d'acquisition d'images sont embarqués et mobiles (e.g. voiture), la distance de sécurité autour d'une zone d'intérêt associée de manière probabiliste à un "piéton" peut être régulièrement réévaluée (optionnellement avec une boucle de rétroaction agissant sur les commandes du véhicule embarquant les moyens de prise de vue).

Dans un développement, l'indication de la zone d'intérêt résulte d'un filtrage par motif du contenu de l'image.

Dans un développement, des techniques de filtrage par motif {pattern matching en anglais) peuvent être utilisées.

Dans un développement, l'indication de la zone d'intérêt résulte d'un filtrage par détection de visages du contenu de l'image. Dans un développement, des techniques de détection de visages {face détection en anglais) peuvent être utilisées. Ces algorithmes sont rapides et fiables. Dans le cas d'un flux vidéo, la probabilité de détection augmente. La détection d'un visage pourra associer la qualité de "piéton" à une zone d'intérêt. Dans un développement, le filtrage par motif s'effectue par balayage du contenu de l'image par un modèle prédéfini, le balayage s'effectuant à différentes positions et échelles. Dans un développement spécifique, optionnel, le balayage peut s'effectuer au moyen d'une fenêtre glissante sur le sol (ou plan de sol) estimé et une détection peut être déclenchée au-delà d'un seuil prédéfini de taux de remplissage (par exemple). Le taux de remplissage peut être défini comme le pourcentage en pixels d'une zone verticale cohérente.

Dans un développement, il est divulgué un système comprenant des moyens pour mettre en œuvre une ou plusieurs étapes du procédé, le système comprenant un ou plusieurs moyens d'acquisition d'images choisis parmi une caméra Time-of-Flight TOF, une caméra infrarouge et une caméra stéréoscopique.

Dans un développement, le système comprenant en outre un ou plusieurs moyens de détection et de mesure choisis parmi un radar, une paire de mono-caméra calibrées, un capteur 3D ou une tête stéréoscopique calibrée.

Dans un développement, l'estimation du plan du sol est fournie par les moyens d'acquisition d'images.

Dans un développement, il est divulgué un produit programme d'ordinateur, ledit programme d'ordinateur comprenant des instructions de code permettant d'effectuer une ou plusieurs des étapes de la méthode, lorsque ledit programme est exécuté sur un ordinateur.

Description des figures

Différents aspects et avantages de l'invention vont apparaître en appui de la description d'un mode préféré d'implémentation de l'invention mais non limitatif, avec référence aux figures ci-dessous : Les figures 1 A, 1 B et 1 C illustrent des exemples de déformations géométriques liées aux moyens d'acquisition d'image courants et/ou après redressement;

La figure 2 illustre un exemple de stratégie de fenêtres glissantes sur une image redressée et/ou redimensionnée, avec une estimation du plan du sol et des indications de profondeur; La figure 3 illustre le principe de détection de cibles dans une zone de danger;

La figure 4 illustre des exemples d'imagettes d'apparence et de disparité issues d'une image globale;

La figure 5 illustre différents exemples d'étapes pour calculer une matrice de transformation permettant le redressement et le redimensionnement d'une cible dans une imagette; La figure 6 présente certains aspects relatifs au calcul de l'imagette par interpolation.

La figure 7 illustre schématiquement un exemple de système de coordonnées qui peut être utilisé dans certaines mises en œuvre de l'invention;

La figure 8 illustre un exemple de principe d'exploitation d'un flux vidéo. Description détaillée de l'invention

Plusieurs méthodes (et systèmes associés) sont divulgués pour la détection de formes ou d'objets, correspondant à des "cibles" (au sens de modèles connus et recherchés dans le contenu de l'image), par exemple des véhicules ou des piétons dans des images fixes ou animées (séquences d'images ou flux d'images).

De manière générale, un des objectifs principaux d'un système de détection par vision par ordinateur (encore dit de vision artificielle ou de vision par ordinateur ou bien encore de vision robotique) est de reconnaître et de localiser avec précision des formes, préalablement définies et connues dans l'image. Ce type de système comprend généralement l'utilisation de capteurs d'acquisition d'images (par exemple une ou plusieurs caméras de type Time-of-Flight TOF ou infrarouge ou stéréoscopique, ou bien encore une combinaison de ces différentes technologies), l'utilisation d'un procédé ou de méthodes calculant le plan du sol et la position d'un obstacle vertical (par exemple à l'aide d'un système radar, d'un dispositif utilisant une mono-caméra calibrée dans le cas d'un capteur fixe, un capteur 3D ou une tête stéréoscopique calibrée dans le case d'un capteur mobile), l'utilisation d'une ou de plusieurs méthodes de classification automatique (éventuellement concurrentes) visant à déterminer si l'apparence du motif observé est proche de celle d'un modèle connu. Ce modèle peut lui-même être issu d'un design CAO, d'un dessin manuel, d'une image ou de façon plus élaborée d'un apprentissage statistique (généralement constitué de deux phases, une première phase d'apprentissage dite traitement "offline" et une seconde phase de détection dite de traitement "online"). Les figures 1 A, 1 B et 1 C illustrent des exemples de déformations géométriques liées aux moyens d'acquisition d'image courants et/ou après redressement et/ou redimensionnement.

Les images fournies par les capteurs présentent souvent des distorsions géométriques. Ces dernières varient sensiblement selon les conditions d'acquisition des images et également selon les conditions d'exploitations ultérieures de ces mêmes images. Concernant la position de la cible sur le plan du sol, il est par exemple assez fréquent d'observer que plus l'objet se trouve sur les côtés de l'image (près des bords), plus la distorsion est importante. Concernant la hauteur et l'inclinaison du capteur d'acquisition d'images (par exemple correspondant aux caméras fixes lors de lors installation), on constate également que plus le capteur de prise de vue est incliné par rapport à la scène observée, plus la distorsion sera importante. Les conditions de montage des capteurs d'acquisition jouent également un rôle. Par exemple, dans le cas de capteurs d'acquisition montés sur l'avant d'une voiture, on observe que le chargement du véhicule peut modifier les prises de vues (une voiture lourdement chargée à l'arrière changera l'angle d'inclinaison de la caméra par exemple). La figure 1 A est une représentation d'une scène 100 représentant un piéton 101 à proximité de plusieurs véhicules. Les figures 1 B et 1 C représentent des exemples de prises de vue 110 et 120 de cette scène 100. Les deux figures 1 B et 1 C illustrent donc des exemples de déformations géométriques, telles que présentées précédemment, et telles que capturées par exemple par des capteurs d'acquisition d'images usuels. On y observe les déformations typiques sur les bords de l'image (déformation radiale) sur la figure 1 B. Le véhicule 111 proche de la ligne d'horizon est particulièrement courbé, rendant une éventuelle reconnaissance plus difficile. La déformation trapézoïdale illustrée à la figure 1 C, par exemple en raison d'une inclinaison de la l'appareil de prise de vue, conserve les lignes horizontales mais déforme les lignes verticales. Dans ces deux images déformées, la personne 101 qui se tient verticalement apparaît en particulier penchée (102, 103).

Il résulte de ces déformations géométriques d'image une dégradation générale des performances, en particulier des non-détections (absence de détection), notamment car les exemples ayant fait l'objet d'un apprentissage et/ou d'une classification n'ont plus nécessairement la même apparence (e.g. forme générale ou empreinte visuelle). Ces distorsions engendrent donc un écart d'apparence significatif entre le modèle recherché (« cible idéale ») et son observation réelle.

Compenser l'inclinaison (c'est-à-dire traiter l'image globalement, et par redressement) peut également parfois provoquer d'autres distorsions de perspective (certaines parties de l'image se retrouvent particulièrement étirées). Il importe donc de redresser/redimensionner l'image de manière appropriée pour ne pas dégrader, ou au contraire, améliorer les performances de détection en aval. En outre, un redressement d'image global implique de stocker une image supplémentaire (ce qui peut avoir des conséquences notables en cas de flux d'images ou de prises de vue nombreuses).

La figure 2 illustre un exemple de reconstruction 3D de la scène. La figure illustre également l'estimation du plan du sol et/ou des indications de profondeur (230a, 230b, 230c, etc.) A partir d'une image capturée (par exemple selon le capteur incliné et la prise de vue 120), une image redressée est calculée, et les informations de plan du sol, de profondeur et de distance relative des obstacles 210 ou 211 sont également accessibles. Par une stratégie de fenêtres glissantes (222, 223) sur l'image redressée et/ou redimensionnée selon l'invention, la détection de cibles et/ou d'obstacles est effectuée. Dans un mode de réalisation particulier, il peut être fait usage de la connaissance de l'équation du plan du sol de la scène observée et de la position de l'obstacle vertical dans l'image. Cette connaissance de l'équation du plan du sol peut être reçue d'un module externe et ou fournie par l'appareillage de prise de vue utilisé, ou bien encore déterminé à partir d'informations en deux dimensions. Plusieurs techniques peuvent en effet être mises en œuvre pour estimer ce plan du sol et une position sur ce dernier. Par exemple, peuvent être utilisé un système radar (qui délivrent des informations de direction et de distance), ou un dispositif utilisant une mono-caméra calibrée, ou un capteur 3D (adaptés ou du même type que ceux disponibles pour le grand public pour des applications de jeux vidéo), ou bien encore une tête stéréoscopique calibrée. Ces différents appareils peuvent être utilisés en combinaison. Par le terme "sol" être entendu, en plus du sens littéral communément admis pour ce terme, la surface plus ou moins plane servant de support de déplacement aux différents objets présents dans la scène. Le sol peut se caractériser par son horizontalité (au moins en moyenne). Un sol peut en effet être cabossé, nivelé, ou plus généralement comprendre divers obstacles (trottoirs, ravins, buttes). La ligne d'horizon servant à l'établissement de cette estimation du plan du sol peut parfois être masquée et compliquer cette même estimation.

Il existe différents moyens pour la détermination de ce plan du sol. Par exemple, le plan du sol peut être déduit d'un modèle numérique de terrain associé à des coordonnées de géolocalisation GPS, ou bien encore fourni tel quel par l'appareillage de prises de vue, ou bien encore calculé en fonction du contenu de l'image (ou des images, une pluralité d'images successives permettant l'établissement de ce plan du sol avec un seuil de confiance amélioré. En d'autres termes, la connaissance de l'équation du plan du sol n'est pas indispensable à l'invention, qui peut procéder selon d'autres manières pour appréhender les trois dimensions de la scène considérée. A titre d'exemple, pour l'estimation du plan du sol, un système stéréoscopique est utilisable. Le cas échéant, la connaissance des paramètres intrinsèques et extrinsèques du système stéréoscopique permettent de procéder à la rectification des images et au calcul des coordonnées 3D des points observés dans la scène capturée dans les deux images acquises. De manière générale, les techniques de vision stéréoscopique et de traitement de données 3D permettent de reconstruire et d'analyser la structure 3D d'une scène capturée. La scène considérée est d'abord capturée ou acquise sous forme d'une paire ou couple d'images prises sous des angles similaires mais néanmoins différents. Pour calculer les coordonnées 3D d'un point de la scène, les coordonnées des deux projections dans les images gauche et droite sont utilisées. Des algorithmes d'appariement identifient, pour un point donné dans une des images, le point correspondant dans l'autre image. Une fois calculées les positions 3D (dans l'espace) de différents points, une reconstruction 3D de la scène peut être effectuée. En particulier, ce type d'information est utilisé pour la phase d'estimation du plan du sol et celle de l'estimation de la position d'un obstacle vertical. La figure 3 illustre un exemple de détection de zones d'intérêt / de cibles par exemple par une stratégie de fenêtres glissantes (301 , 302) sur une image redressée et/ou redimensionnée selon l'invention, avec une estimation du plan du sol et/ou des indications de profondeur (303a, 303b, 303c, etc.) A partir d'une image capturée (par exemple selon le capteur incliné et la prise de vue 3A), une image redressée est calculée, et les informations de plan du sol et de profondeur sont également accessibles.

La figure 3 illustre une chaîne de traitement selon un mode de mise en œuvre de l'invention. Une image (par exemple l'image droite d'une capture prise de vue stéréoscopique) est capturée. Cette image est reproduite à la figure 3A. La figure 3B correspond à l'image rectifiée déduite de l'image 3A: l'équation du plan du sol y est déterminée (les informations de profondeur sont déterminées, dans le cas présent à l'aide de la prise de vue stéréoscopique qui permet par définition ce type de reconstruction 3D). La détection d'obstacles 3D est (éventuellement) effectuée et les zones de danger sont déterminées (non représentées ici). La "boîte" (ou délimitation ou zone ou surface) 301 correspond à la zone d'intérêt global et la boite 302 correspond à l'obstacle vertical ou à la cible recherchée.

Dans un mode de réalisation de l'invention, il est procédé à la détection de cibles dans l'image, de façon locale. Sont définies des zones d'intérêt de manière à ce que les obstacles verticaux soient de même gabarit que la cible prédéfinie et connue. Les détections correspondantes sont ensuite isolées, chacune dans une "imagette".

Afin d'isoler une ou plusieurs zones d'intérêts dans l'image, certains modes de réalisation de l'invention peuvent utiliser une détection d'obstacles en 3D. Par exemple, pour réaliser cette détection, il est possible de procéder de la façon ci-après décrite. Une même scène est d'abord observée à partir d'une tête stéréoscopique calibrée. Une carte de disparité (représentant l'information 3D) est ensuite reconstruite à partir d'une paire d'images rectifiées pour la transformer ensuite en une image de profondeur "verticalisée". Cette dernière est utilisée pour calculer les obstacles verticaux. La détection de ces derniers s'effectue par une stratégie de fenêtre glissante sur le plan du sol, suivie d'algorithmes de "clustering" (comme l'algorithme de suppression de non- maximas). Le critère de détection est le taux de remplissage (pourcentage de pixels d'une zone verticale cohérente). Pour une boîte 3D, si son taux de remplissage est supérieur à un seuil alors elle est considérée comme un obstacle vertical. La figure 4 illustre des exemples d'imagettes d'apparence et de disparité. Chaque obstacle vertical de la scène (de même gabarit que la cible) peut être représenté par deux types d'imagette : (a) une imagette d'apparence, et (b) une imagette de disparité (celle qui contient l'information de profondeur). Il est en particulier possible de constater que le piéton est redressé et redimensionné sur les deux imagettes.

La figure 5 illustre un exemple de procédé de calcul de la matrice de transformation permettant le redressement et le redimensionnement d'une cible dans une imagette. Ces opérations correspondent à un cas particulier de transformations géométriques de l'image. De manière générale, les imagettes sont normalisées. L'étape de normalisation comprend et résume les opérations telles que : déplacement, rotation, facteur d'échelle et recalage.

Le système proposé comprend donc notamment un redimensionnement et un redressement spécifiques des cibles. Selon certains modes de mise en œuvre, les cibles sont redimensionnées/redressées dans une ou plusieurs imagette à partir des images (brutes ou redressées, qu'elles soient d'apparence ou de disparité) de façon à reproduire la même représentation pour les objets de même classe, et sans surcoût du stockage d'une image supplémentaire.

Une méthode est divulguée pour calculer la transformation locale permettant la correction de la distorsion quelle que soit la position de l'obstacle dans la scène, et ceci en fonction de données fournies par des procédés d'estimation de plan du sol et d'estimation de positions d'obstacles verticaux. Les étapes de redimensionnement (et de redressement) visent à transformer les cibles détectées dans une configuration normalisée et proche de celle observée en temps réel. Les distorsions géométriques de perspective sont diminuées voire annulées. Les images redimensionnées et redressées permettent in fine de meilleures analyses et détections des cibles. En particulier, les correspondances entre les cibles apprises lors de l'apprentissage et celles testées lors de la détection sont améliorées. In fine, cela a pour conséquence d'améliorer les performances de la détection de cibles.

De telles étapes de redimensionnement ont aussi pour effet d'optimiser le traitement des imagettes (sous-parties de l'image, de petite taille), et donc optimiser le "scan" (autrement dit le parcours et l'application du détecteur à différentes positions et échelles) lors de la phase de détection. Dans certains modes de réalisation, la technique proposée peut en effet s'effectuer sur des images de dimensions réduites comparées aux dimensions initiales, contrairement à des techniques d'analyse globale pour la correction des distorsions, techniques qui demandent des moyens de stockage supplémentaires.

Le calcul des matrices de transformations géométriques est détaillé ci-après.

Pour générer une imagette, il faut disposer de l'équation du plan du sol et de la position de l'obstacle vertical. Moyennant ces informations, les transformations géométriques 2D qui permettent le redressement et le redimensionnement de ce dernier sont calculées. Pour une normalisation idéale, il est recommandé de connaître les deux coordonnées, basse et haute de la cible dans la scène (au lieu d'une seule coordonnée basse et une taille prédéfinie de la cible). Ces deux coordonnées sont intégrées dans le calcul des transformations. Ainsi qu'illustré sur la figure 4, à l'étape 500 sont fournies/reçues un certain nombre de données (valeurs numériques) en entrée (input). Sont disponibles les paramètres intrinsèques de la caméra, l'équation du plan de sol et la position de la cible sur le plan du sol. Par exemple, seront reçues les données comprenant:

^■ p(x, z), la position de la cible sur le plan du sol,

^■ t, la taille de la cible en mètre,

■ R_1t repère plan du sol, R₂ repère caméra, R₃ repère image et R₄ repère imagette,

Sont alors définies les différentes matrices de passage: ^■ M 12 la matrice de passage du repère plan du sol Ri vers le repère caméra R₂, calculée à partir de l'équation du plan du sol,

^■ M₂3 étant la matrice de passage du repère caméra /¾ vers le repère image R₃, calculée à partir des paramètres intrinsèques de la caméra, A l'étape 510 sont définies les projections des positions de la cible sur ou dans l'image. Sont notés:

• pi(x, 0, z) et qi(x, t, z) les positions de la cible, haute et basse, dans le repère plan du sol F?_/.

· p₂ et q₂ les positions de la cible, haute et basse, dans le repère caméra /¾■

• p₃ et q₃ les positions de la cible, haute et basse, dans le repère image R₃. II s'ensuit que p₂ = M12 * pi, q₂ = M12 * qi, p₃ = M₂₃ * p₂ et q₃ = M₂₃ * q₂

A l'étape 521 et 522 sont calculés le centre et l'axe de la cible sur l'image par les relations suivantes: c(x_c, y_c. z_c) = (q₃+ p₃)/2, centre de la cible

V(u, v, w) = q₃- p₃, vecteur représentant l'axe de la cible

A l'étape 530, le déplacement D est déterminé par:

1 0 0 -x_c I

D = I 0 0 -y_c I

I 0 0 1 I A l'étape 531 , le facteur d'échelle S est déterminé selon :

| s 0 0 |

S = 1 0 s 0 |

| 0 0 1 | avec s = t₄/t₃, facteur

t₃ = | V\ étant la taille en pixels de la cible sur l'image

t₄ étant la taille désirée en pixels de la cible sur l'imagette (un paramètre à fixer, par exemple : pour une cible personne de posture debout, t₄ est fixé à 80 pixels)

A l'étape 532, la rotation R est calculée par:

I cos -sin 0 I avec cos = cos(angle) et sin = sin(angle),

angle = arctang(u/v) étant l'angle de la rotation. A l'étape 533, le recalage Dr est fixé selon:

1 0 0 m_x I

Dr = I 0 0 m_y I

I 0 0 1 i m_x et m_y étant des marges à fixer (pour que l'imagette contienne la cible, il faut que m_x et m_y soient suffisamment supérieures à t₄ et l₄, l₄ étant la largeur de la cible sur l'imagette). Enfin, la matrice de transformation M permettant le redressement et le redimensionnement global de l'image est calculée comme suit:

M = ( Dr ^* S ^* D ^* R )^"1 Cette matrice est l'inverse du produit de l'ensemble des matrices transformations géométriques calculées précédemment.

La figure 6 illustre un exemple de calcul d'une imagette. Une matrice 540 est appliquée à une image globale 600, de façon à obtenir une imagette, qui est interpolée 610, pour obtenir une imagette redressée et redimensionnée représentant la cible 620.

En d'autres termes, une imagette 620 représentant la cible et associée à un obstacle vertical est extraite à partir d'une image 600 en utilisant une interpolation 610 (par exemple bilinéaire, bi-cubique ou selon toute autre méthode d'interpolation). Afin de construire cette imagette, il est nécessaire de calculer la matrice de transformation 540 (qui englobe le déplacement, la rotation, le facteur d'échelle et le recalage) telle que décrite à la figure 5.

La taille de l'imagette obtenue est fixe pour tous les obstacles du même modèle recherché. Dans l'imagette, l'obstacle est donc redressé et redimensionné. Ainsi, les éventuelles cibles ont des tailles normalisées et des axes verticaux, quelles que soient leurs positions dans la scène.

Dans les détails un algorithme de calcul, en notant toujours M la matrice de transformation permettant le redressement et le redimensionnement, pourra comprendre les étapes suivantes: - pour chaque pixel de l'imagette, piximagette, recherche du correspondant de piximagette dans l'image, soit piximage (qui a une position flottante dans l'image) avec pix_image= M ^* pix_imagette

- si piximage n'est pas dans l'image, piximage est remplacé par son symétrique;

- si le symétrique n'est pas dans l'image, piximage est remplacé par le pixel au bord;

- calcul de l'intensité de piximagette par interpolation des intensités de l'image autour de piximage- Dans certains modes de réalisation, les obstacles verticaux sont redressés et redimensionnés dans des imagettes. Cette étape de prétraitement est avantageuse pour améliorer l'efficacité des détections dans de nombreux contextes (par exemple champs latéraux, champs proches, déformations dues à la projection, etc.)

La figure 7 illustre schématiquement un exemple de système de coordonnées qui peut être utilisé pour certaines mises en œuvre de l'invention. La figure 7montre une image en deux dimensions (largeur et hauteur) 710 situés sur le plan du sol 701 a une certaine profondeur. De fait, dans certains modes de réalisation cinq paramètres sont utilisés : trois sont relatifs à la position en trois dimensions de l'imagette (ou vignette ou affichette ou image 2D) et deux sont relatifs à cette dernière (sur la figure, largeur et hauteur). Différentes variantes sont possibles. Par exemple, connaissant l'équation du plan du sol 701 deux coordonnées X et Z sont suffisantes, en sus des dimensions du contenu de l'image. En fait seule l'information de profondeur de l'imagette n'a pas à être connue (dans certains modes de réalisation). La position de l'imagette doit être connue puisque sa position dans l'image (ou frame vidéo) détermine les distorsions géométriques du à l'inclinaison et ou à l'optique des moyens d'acquisition d'images. Par exemple l'imagette 711 pourra être très déformée, au contraire de l'imagette 712 centrale. Les informations 3D peuvent être calculées par analyse du contenu de l'image. Ces informations 3D peuvent aussi être fournies nativement par l'appareillage de prise de vue (par exemple une caméra TOF utilisant un laser pourra renseigner directement les informations de profondeur et de position dans la scène 3D), ces appareils implémentant donc, et de diverses manières, ces les étapes de reconstruction de scènes en trois dimensions. Dans cette perspective, la fourniture de l'équation du plan du sol n'est pas un pré-requis indispensable de l'invention. Il existe différentes manières d'accéder à cette information de profondeur.

La figure 8 illustre un exemple de principe d'exploitation d'un flux vidéo d'images. Les différents exemples et étapes de méthode décrite jusqu'ici peuvent s'appliquer de façon continue (ou répétée). Dans le cas où les moyens d'acquisition d'images capturent un flux vidéo constitué de plusieurs Frame vidéo, la répétition d'une ou de plusieurs étapes de la méthode permet de déterminer avec plus de certitude l'équation du plan du sol 820, ou encore par exemple de définir, ou de redéfinir (ou de réajuster) les zones de danger (par exemple par soustraction des vitesses relatives dans le cas les moyens d'acquisition d'images sont embarqués sur un véhicule mobile). De manière optionnelle différent dispositifs matériels et ou logiciel peuvent complémenter l'invention. Par exemple chacune des frames vidéo peut faire l'objet d'une étape de reconnaissance des visages (face détection), ce type d'algorithme étant désormais courant, rapide et fiable. Dans ce cas, les objets identifiés dans la scène peuvent être suivis ou surveillés (techniques ô 'image tracking). La dimension temporelle permet de réviser continuellement la qualification des objets suivis. Par exemple, concernant le suivi de l'imagettes 710, si un nombre suffisant de frame vidéo ont occasionné une détection de visage (par exemple en excès d'un seuil prédéfini), alors l'objet 710 peut être associé à la qualification de "piéton" avec un niveau de confiance suffisant.

Dans un mode de réalisation particulier, il est divulgué une méthode d'analyse du contenu d'une image, comprenant les étapes de détermination d'une estimation du plan du sol et des informations de profondeur associées au contenu de l'image; de détection d'au moins une zone d'intérêt et estimation de la position de la zone d'intérêt détectée sur le plan du sol; de redressement et redimensionnement du contenu de l'image de manière à obtenir une zone d'intérêt de même gabarit (taille, ou dimensions comparables) qu'un ou plusieurs modèles prédéfinis, connus d'une base de connaissance.

La présente invention peut s'implémenter à partir d'éléments matériel et/ou logiciel. Elle peut être disponible en tant que produit programme d'ordinateur sur un support lisible par ordinateur. Le support peut être électronique, magnétique, optique, électromagnétique ou être un support de diffusion de type infrarouge.

Claims

Revendications

1 . Méthode d'analyse du contenu d'une image, comprenant les étapes de:

- réception de l'indication d'une zone d'intérêt dans l'image et de paramètres associés à la zone d'intérêt;

- normalisation à l'aide des paramètres associés de la portion de l'image correspondant à la zone d'intérêt de manière à obtenir une portion d'image modifiée de dimensions comparables avec un ou plusieurs modèles prédéfinis ; ladite normalisation comprenant le déplacement et/ou la rotation et/ou la mise à l'échelle et/ou le recalage du contenu de la portion de l'image.

2. Méthode selon les revendications 1 , comprenant en outre la réception d'une estimation du plan du sol dans le contenu de l'image.

3. Méthode selon la revendication 2, pour laquelle le plan du sol est estimé par la reconstruction en trois dimensions de la scène représentée dans le contenu de l'image.

4. Méthode selon la revendication 3, la reconstruction en trois dimensions de la scène représentée dans le contenu de l'image s'effectuant par appariement de points en correspondance entre deux images de type stéréoscopique.

5. Méthode selon la revendication 1 comprenant en outre une étape de calcul de mesure de similarité entre la zone d'intérêt normalisée et un ou plusieurs modèles prédéfinis.

6. Méthode selon la revendication 1 comprenant en outre une étape de classification automatique de la zone d'intérêt normalisée par comparaison avec un ou plusieurs modèles prédéfinis.

7. Méthode selon la revendication 5, un modèle prédéfini étant un design CAO ou un dessin manuel ou une image ou un objet résultant d'un apprentissage statistique.

8. Méthode selon l'une quelconque des revendications précédentes comprenant en outre une étape de qualification de la zone d'intérêt en cible ou en obstacle et une étape de définition d'une zone de danger associée à la cible et/ou l'obstacle, ladite zone de danger comprenant ou étant associée à une longueur ou une surface ou un intervalle de temps.

9. Méthode selon la revendication 1 , l'indication de la zone d'intérêt résultant d'un filtrage par motif du contenu de l'image.

10. Méthode selon la revendication 1 , l'indication de la zone d'intérêt résultant d'un filtrage par détection de visages du contenu de l'image.

11 . Méthode selon la revendication 9, le filtrage par motif s'effectuant par balayage du contenu de l'image par un modèle prédéfini, le balayage s'effectuant à différentes positions et échelles.

12. Système comprenant des moyens pour mettre en œuvre les étapes du procédé selon l'une quelconque des revendications 1 à 11 , le système comprenant un ou plusieurs moyens d'acquisition d'images choisis parmi une caméra Time-of-Flight TOF, une caméra infrarouge et une caméra stéréoscopique.

13. Système selon la revendication 12, comprenant en outre un ou plusieurs moyens de détection et de mesure choisis parmi un radar, une paire de mono-caméra calibrées, un capteur 3D ou une tête stéréoscopique calibrée.

14. Système selon la revendication 13, pour laquelle l'estimation du plan du sol est fournie par les moyens d'acquisition d'images.

15. Un produit programme d'ordinateur, ledit programme d'ordinateur comprenant des instructions de code permettant d'effectuer les étapes du procédé selon l'une quelconque des revendications 1 à 11 , lorsque ledit programme est exécuté sur un ordinateur.