WO2010037704A1

WO2010037704A1 - Procede d'optimisation de la recherche d'une scene a partir d'un flux d'images archivees dans une base de donnees video

Info

Publication number: WO2010037704A1
Application number: PCT/EP2009/062507
Authority: WO
Inventors: Denis Marraud; Benjamin Cepas
Original assignee: European Aeronautic Defence And Space Company - Eads France
Priority date: 2008-09-30
Filing date: 2009-09-28
Publication date: 2010-04-08
Also published as: US9275140B2; JP2012504265A; FR2936627B1; FR2936627A1; JP5548202B2; IL211768A; EP2332079A1; US20110228095A1; IL211768A0

Abstract

Procédé de recherche d'une scène à partir d'un flux d'images archivées dans une base de données vidéosurveillance comportant: - une première phase de prétraitement préalablement à l'archivage desdites images comportant les étapes suivantes : • extraire des informations génériques des images dudit flux, • annoter systématiquement les scènes desdites images par au moins une indication définie en fonction desdites informations génériques, • indexer les scènes desdites images à partir d' informations extraites desdites indications en provenance d'un ou de plusieurs flux, - une deuxième phase d' investigation par présélection de segments vidéo dans le flux d'images comportant les indications annotations associées auxdites images, et - une troisième phase de recherche d'une scène particulière à partir d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnées.

Description

PROCEDE D'OPTIMISATION DE LA RECHERCHE D'UNE SCENE A PARTIR D'UN FLUX D'IMAGES ARCHIVEES DANS UNE BASE DE

DONNEES VIDEO

DESCRIPTION

DOMAINE TECHNIQUE

L' invention concerne un procédé d'optimisation de la recherche d'une scène à partir d'un flux d'images archivées dans une base de données vidéo .

L' invention concerne également un logiciel mémorisé sur un support d'enregistrement et destiné, lorsqu'il est exécuté par un ordinateur, à mettre en œuvre le procédé, et un dispositif adapté pour mettre en œuvre le procédé.

ÉTAT DE LA TECHNIQUE ANTÉRIEURE

Les images vidéo sont de plus en plus utilisées dans des applications industrielles pour le contrôle et la supervision de processus et dans des applications de vidéosurveillance de sites publics ou privés. Ces applications utilisent généralement un réseau de caméras judicieusement agencées de manière à fournir des images fiables à différents points de l'espace surveillé. Les images fournies par les différentes caméras sont compressées puis stockées dans une base de données vidéo en vue d'une exploitation ultérieure. Dans la plupart des applications, notamment dans le domaine de vidéosurveillance, cette exploitation nécessite le traitement d'un grand volume d'images vidéo, particulièrement lorsque le réseau comporte un nombre important de caméras dispersées dans une zone étendue telle qu'une ville par exemple. La quantité d' images stockées devient très vite trop importante pour qu'un opérateur puisse effectuer une analyse rapide et efficace des images afin d'en extraire des faits ou objets pertinents pour l'application envisagée.

En pratique, une investigation peut nécessiter le visionnage et/ou le traitement de plusieurs dizaines de milliers d'heures de vidéo. Il est alors difficile de retrouver l'information recherchée si aucune indexation préalable des vidéos n'a été entreprise dès l'acquisition. Par ailleurs, les vidéos disponibles lors de l'investigation sont celles qui ont été stockées, donc compressées et ne disposent plus de la qualité image optimale pour une extraction d'information la plus riche possible.

Il existe dans l'art antérieur des systèmes générant des alarmes sur des événements ou des indications prédéfinis. Cependant, dans certaines applications, les événements et les indications générant les alarmes peuvent s'avérer insuffisants pour naviguer rapidement et efficacement dans les archives à la recherche d'objets (individus, véhicules) susceptibles de fournir des informations pertinentes. C'est le cas par exemple de la recherche d'individus suspects dans une foule à différents points d'une zone surveillée par des caméras.

Un inconvénient des systèmes de vidéosurveillance actuels provient du fait qu'ils s'intéressent exclusivement aux événements courants et génèrent des alarmes pour des événements prédéfinis. La notion de « mémoire » d'un tel système est limitée aux vidéos enregistrées et aux alarmes détectées.

Les systèmes ne permettent pas de retrouver un événement qui n'a pas généré d'alarme lors de son occurrence, mais qui est devenu déterminant dans le cadre d'une investigation ultérieure.

Un premier but de l'invention est d'organiser la mémoire de tels systèmes afin qu'ils permettent une investigation efficace en limitant la quantité de données à analyser par l'opérateur, et en annotant systématiquement les flux d' images obtenues par les caméras afin de permettre une sélection rapide des séquences vidéos pertinentes pour l'investigation. Un deuxième but de l'invention et de fournir des outils matériels et logiciels permettant à l'opérateur de naviguer rapidement et efficacement dans des archives vidéo au moyen d'une indexation systématique permettant d'extraire les informations sur le flux avant compression pour bénéficier d'une qualité d'image maximale.

EXPOSÉ DE L'INVENTION

L' invention propose un procédé d' aide à l'investigation dans une archive vidéo s' appuyant sur l'annotation générique et systématique des flux, sur le filtrage des vidéos sans intérêt à partir de requêtes génériques, et sur la sélection des vidéos pertinentes à partir d'une recherche ciblée.

Le procédé selon l'invention comporte : - une première phase de prétraitement, préalablement à l'archivage desdites images, comportant les étapes suivantes :

• extraire des informations génériques des images dudit flux,

• annoter systématiquement les scènes desdites images par au moins une indication définie en fonction desdites informations génériques,

• indexer les scènes desdites images à partir d'informations extraites desdites indications en provenance d'un ou de plusieurs flux,

- une deuxième phase d' investigation par présélection de segments vidéo dans le flux d' images comportant les indications des annotations associées auxdites images, et,

- une troisième phase de recherche parmi les segments vidéo pré-sélectionnés d'une scène particulière à partir d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés.

Préférentiellement , ladite troisième phase comporte une étape d'apprentissage permettant la reconnaissance de ladite caractéristique supplémentaire dans les segments vidéo présélectionnés. Selon l'invention, la troisième phase de recherche d'une scène particulière est exécutée au moyen d'une requête générique comportant ladite caractéristique supplémentaire et les annotations associées aux segments vidéo présélectionnés. Dans cette phase de recherche, sont appliqués des traitements d'extraction d'informations supplémentaires sur les segments pré-sélectionnés, et lesdites informations supplémentaires sont comparées à des informations contenues dans les modèles d'apprentissage de la caractéristique spécifique recherchée. Selon une autre caractéristique de l'invention, les informations génériques extraites desdites images sont définies en fonction de l'application envisagée de la scène recherchée.

Une application possible du procédé selon l'invention concerne la recherche d'une scène particulière dans un flux d' images obtenues par un réseau de caméras de vidéosurveillance .

Dans ce cas, l'annotation des scènes du flux d' images obtenues par les caméras est réalisée indépendamment, flux par flux, sur chacun des flux obtenu par chaque caméra du réseau de vidéosurveillance .

Dans un mode de réalisation, l'annotation desdites scènes est réalisée par traitement des annotations associées à plusieurs flux distincts, soit par l'unité de prétraitement, soit par l'unité de traitement .

Dans un autre mode de réalisation de l'invention, l'annotation desdites scènes peut être réalisée par fusion des annotations associées à plusieurs flux distincts. Ce mode de réalisation est particulièrement adapté à une application de vidéosurveillance réalisée par un système comportant plusieurs caméras par exemple. Dans une première variante de réalisation de l'invention, la première phase de prétraitement est réalisée lors de l'acquisition des images.

Dans une deuxième variante de réalisation de l'invention la première phase de prétraitement est réalisée lors de l'archivage des images.

Le procédé est mis en œuvre par un logiciel mémorisé sur un support d'enregistrement et susceptible d'être exécuté par un ordinateur. Ce logiciel comporte :

- un premier module comportant des instructions pour réaliser une phase de prétraitement préalablement à l'archivage desdites images comportant les étapes suivantes : • extraire des informations génériques des images dudit flux,

• annoter systématiquement les scènes desdites images par au moins une indication définie en fonction desdites informations génériques, • indexer les scènes desdites images à partir d' informations extraites desdites indications en provenance d'un ou de plusieurs flux,

- un deuxième module comportant des instructions pour réaliser une phase d' investigation par présélection de segments vidéo dans le flux d' images comportant les indications annotations associées auxdites images, et,

- un troisième module comportant des instructions pour réaliser une phase de recherche d'une scène particulière à partir d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés .

Ledit logiciel est susceptible d'être implémenté dans un dispositif d'optimisation de la recherche d'une scène à partir d'un flux d'images archivées dans une base de données vidéo comportant :

- une première unité destinée à réaliser un prétraitement des images du flux préalablement à l'archivage desdites images, ladite première unité comportant :

• des moyens pour extraire des informations génériques des images dudit flux,

• des moyens pour annoter systématiquement les scènes desdites images par au moins une indication définie en fonction desdites informations génériques,

• des moyens pour indexer les scènes desdites images à partir d' informations extraites desdites indications en provenance d'un ou de plusieurs flux, - une deuxième unité destinée à réaliser une phase d' investigation par présélection de segments vidéo dans le flux d' images comportant les indications annotations associées auxdites images, et,

- une troisième unité destinée à réaliser une phase de recherche d'une scène particulière à partir d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés. BREVE DESCRIPTION DES DESSINS

D'autres caractéristiques et avantages de l'invention ressortiront de la description qui va suivre, prise à titre d'exemple non limitatif, en référence aux figures annexées dans lesquelles : la figure 1 illustre schématiquement une architecture générale d'un système d'acquisition et d' images dans lequel est mis en œuvre le procédé selon l'invention, - la figure 2 représente un schéma-bloc illustrant les étapes essentielles de recherche de segments vidéo selon l'invention.

EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS

La figure 1 illustre schématiquement un système d'acquisition et de traitement d'images obtenues par un réseau de caméras 2 dans un réseau de vidéo surveillance par exemple. La sortie de chaque caméra 2 est reliée à une première unité de prétraitement 4 comportant un module d' annotation 6 et un module de compression 8. La sortie de chaque unité de prétraitement 4 est reliée à une deuxième unité de prétraitement 10 comportant un module de fusion d'annotation 12 et une mémoire 14. La sortie de la deuxième unité de prétraitement 10 est reliée à une unité d'indexation 16 qui peut être centrale ou répartie et communiquant avec une unité de recherche 18. L'unité de recherche 18 est également liée à un module de post-traitement 19 qui prend en charge l'apprentissage et la recherche de la caractéristique spécifique recherchée. En fonctionnement, les images obtenues par une caméra 2 sont transmises, avant compression, à la première unité de prétraitement 4 qui lui est associée.

Le module d'annotation 6 de l'unité de traitement 4 comporte un logiciel dont les fonctions sont adaptables à l'application envisagée pour ajouter des annotations génériques aux images reçues de la caméra .

Ainsi, dans une application de vidéosurveillance il pourra s'agir de détecter et caractériser des objets mobiles (piétons, véhicules) . Les annotations génériques sont par exemple « piétons », « véhicules », les trajectoires associées aux objets, des attributs de caractérisation, etc Dans une application de surveillance de processus industriel, il pourra s'agir de la détection et de la caractérisation d'objets défilant sur un tapis roulant. Dans ce cas, les annotations génériques sont par exemple la forme ou la couleur des objets. L'annotation des scènes est réalisée par traitement des annotations associées à plusieurs flux distincts. Elle peut se faire indépendamment flux par flux ou par fusion des annotations faites sur chaque flux, au moyen du module de fusion d'annotation 12, des annotations de plusieurs flux (tracking multi caméras en vidéosurveillance par exemple) . Les annotations peuvent être extraites localement au plus près des caméras (au sein de l'unité de pré-traitement 4) ou avant indexation dans l'unité de traitement 12. Une fois l'annotation définie et associée aux images, celles-ci sont compressées puis stockées dans la mémoire 14.

Les images stockées subissent ensuite une indexation systématique dans l'unité d'indexation 16. Cette indexation permet d'éliminer rapidement les images ne correspondant pas aux critères de recherche spécifiés par l'opérateur lors de la phase d'investigation. Ainsi, si par exemple on s'intéresse à un piéton dans une archive vidéo, toutes les séquences ne présentant que des voitures seront éliminées automatiquement de la recherche. La navigation dans la base de données peut être optimisée par une phase d'apprentissage de reconnaissance de caractéristiques non génériques appliquées au logiciel de l'unité de prétraitement 4.

Ainsi par exemple si on recherche un individu présentant une caractéristique supplémentaire n'ayant pas un caractère générique, par exemple, « l'individu recherché porte un sac à dos rouge », l'unité de post-traitement 19 peut être configurée pour sélectionner automatiquement les séquences de piétons portant un sac à dos rouge parmi les segments présélectionnés à partir des caractéristiques génériques (i.e. les séquences de piétons) .

Cette configuration est obtenue par un apprentissage de la notion «présence d'un sac à dos rouge» et sera alors réalisé et appliqué aux vidéos présélectionnées . Dans une application multimédia, il pourra s'agir de la découpe des scènes en plans et de la caractérisation de chacun des plans, ...) .

Ainsi, lors de la recherche des séquences d'un acteur donné dans une archive cinéma, cette recherche est précédée par une étape d' indexation et de présélection des plans contenant des êtres humains, etc .

La figure 2 illustre schématiquement les étapes de recherche d'un segment vidéo à partir d'une base de données.

A l'étape 20, l'opérateur lance une requête de recherche du segment vidéo au moyen de l'unité de recherche 18. Cette requête comporte essentiellement des critères génériques associés à l'objet recherché lors de la phase de prétraitement.

A l'étape 22, l'unité d'indexation 16 recherche l'objet ou les objets répondant auxdits critères génériques parmi les segments présélectionnés lors de la phase de prétraitement et transmet les segments trouvés à l'unité de post-traitement 19

Si l'objet recherché présente d'autres caractéristiques non génériques, la recherche est alors optimisée au moyen d'un modèle obtenu à partir d'une unité de modélisation 26 incluse dans l'unité de posttraitement 19. L'unité de modélisation 26 construit les modèles en tenant compte des annotations génériques et des critères spécifiques supplémentaires.

L' invention peut être mise en œuvre dans les systèmes de vidéosurveillance intelligente pouvant être utilisés dans le cadre d' investigations et de manière plus générale pour toute recherche ciblée dans une base de données de vidéos (vision industrielle, multimédia, ...) .

Le procédé permet de réduire considérablement le nombre d'opérateurs nécessaires et les temps de recherche d'individus, véhicules ou événements particuliers.

Claims

REVENDICATIONS

1. Procédé d'optimisation de la recherche d'une scène à partir d'un flux d'images archivées dans une base de données vidéo, caractérisé en ce qu' il comporte :

- une première phase de prétraitement préalablement à l'archivage desdites images comportant les étapes suivantes : • extraire des informations génériques des images dudit flux,

- une deuxième phase d' investigation par présélection de segments vidéo dans le flux d' images comportant les indications annotations associées auxdites images,

- une étape d'apprentissage permettant la reconnaissance d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés, et,

- une troisième phase de recherche d'une scène particulière à partir de ladite caractéristique supplémentaire .

2. Procédé selon la revendication 1 dans lequel ladite troisième phase de recherche d'une scène particulière est exécutée au moyen d'une requête générique comportant les annotations associées aux segments vidéo présélectionnés et ladite caractéristique supplémentaire.

3. Procédé selon la revendication 1 dans lequel les informations génériques extraites desdites images sont définies en fonction de l'application envisagée de la scène recherchée.

4. Procédé selon la revendication 3, consistant à rechercher une scène particulière dans un flux d' images obtenues par un réseau de caméras de vidéosurveillance .

5. Procédé selon la revendication 5 dans lequel l'annotation desdites scènes est réalisée indépendamment, flux par flux, sur chacun des flux obtenus par chaque caméra du réseau de vidéosurveillance.

6. Procédé selon la revendication 4 dans lequel l'annotation desdites scènes est réalisée par traitement des annotations associées à plusieurs flux distincts, soit par l'unité de pré-traitement (4), soit par l'unité de traitement (12) .

7. Procédé selon la revendication 2, caractérisé en ce que la première phase de prétraitement est réalisée lors de l'acquisition des images .

8. Procédé selon la revendication 2, caractérisé en ce que la première phase de prétraitement est réalisée lors de l'archivage des images.

9. Logiciel mémorisé sur un support d'enregistrement destiné, lorsqu'il est exécuté par un ordinateur, à mettre en œuvre le procédé selon l'une des revendications 1 à 9, caractérisé en ce qu'il comporte :

- un premier module comportant des instructions pour réaliser une phase de prétraitement préalablement à l'archivage desdites images comportant les étapes suivantes :

• extraire des informations génériques des images dudit flux,

• indexer les scènes desdites images à partir d' informations extraites desdites indications en provenance d'un ou de plusieurs flux,

- un deuxième module comportant des instructions pour réaliser une phase d'investigation par présélection de segments vidéo dans le flux d' images comportant les indications annotations associées auxdites images, et une phase d'apprentissage permettant la reconnaissance d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés, et,

- un troisième module comportant des instructions pour réaliser une troisième phase de recherche d'une scène particulière à partir de ladite caractéristique supplémentaire.

10. Dispositif d'optimisation de la recherche d'une scène à partir d'un flux d'images archivées dans une base de données vidéo, caractérisé en ce qu' il comporte :

- une première unité (4) destinée à réaliser un prétraitement des images du flux préalablement à l'archivage desdites images, ladite première unité comportant :

• des moyens (6) pour annoter systématiquement les scènes desdites images par au moins une indication définie en fonction desdites informations génériques,

• des moyens pour indexer les scènes desdites images à partir d' informations extraites desdites indications en provenance d'un ou de plusieurs flux,

- une deuxième unité (16) destinée à réaliser une phase d' investigation par présélection de segments vidéo dans le flux d' images comportant les indications annotations associées auxdites images, et, une phase d'apprentissage permettant la reconnaissance d'au moins une caractéristique supplémentaire ne faisant pas partie des annotations associées aux segments vidéo présélectionnés, et,

- une troisième unité (18) destinée à réaliser une troisième phase de recherche d'une scène particulière à partir de ladite caractéristique supplémentaire .