WO2010046599A1 - Determination d'entite elementaire cle dans un contenu multimedia - Google Patents

Determination d'entite elementaire cle dans un contenu multimedia Download PDF

Info

Publication number
WO2010046599A1
WO2010046599A1 PCT/FR2009/052019 FR2009052019W WO2010046599A1 WO 2010046599 A1 WO2010046599 A1 WO 2010046599A1 FR 2009052019 W FR2009052019 W FR 2009052019W WO 2010046599 A1 WO2010046599 A1 WO 2010046599A1
Authority
WO
WIPO (PCT)
Prior art keywords
elementary
histograms
histogram
entity
entities
Prior art date
Application number
PCT/FR2009/052019
Other languages
English (en)
Inventor
Nicolas Gengembre
Sid Ahmed Berrani
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2010046599A1 publication Critical patent/WO2010046599A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • the field of the invention is that of the transmission or exchange of multimedia content. More specifically, the invention relates to the determination of key elementary entity in a multimedia content, in particular for the analysis and control of such content, such as the detection of copies of a referenced content.
  • Content providers offer online their video catalog.
  • the multimedia contents offered by these services are protected, and for example subject to a payment to be able to download them.
  • sites for the exchange of multimedia content appeared.
  • the detection of video copies makes it possible: to identify the contents referenced in a catalog, that is to say referenced in a reference database, in order to detect the illicit copies of the reference contents; Highly copied contents (de-doubling) in order to detect content that generates audience, or limit storage sizes.
  • Such detection must be able to take into account the usual alterations that a content can undergo in this context: high compression, resampling, reframing, but also text embedding, logos, filmed projections (in English "camcording"), etc. Indeed, a copied content generally undergoes intentional transformations, in order to make it difficult to detect, as well as unintentional transformations, due to the recording of the content, its transcoding, or even editorial constraints during its republication.
  • the detection of copies of multimedia documents consists of searching for the presence or absence of a "suspect" request document in a protected database.
  • Such a technique relies on two essential aspects: - the description of the visual content of the video document, i.e. the descriptors used; the descriptor indexing technique, i.e. the method used to structure the descriptor database of protected documents, which makes it possible to efficiently execute searches.
  • document descriptors are large digital vectors with a similarity measure (often a distance) associated with them. This measure of similarity makes it possible to quantify the similarity between two documents by measuring the proximity between their descriptors. In particular, these descriptors must be robust to the alterations of the documents.
  • a key picture-based description is mainly used. This technique consists in selecting from the video content a subset of images, called keyframes, and describing these keyframes.
  • the detection of video copies therefore corresponds to a detection of image copies from the same video source in a coherent temporal order.
  • mapping a copied video document to the original video document amounts to matching the descriptors of the keyframes of the two documents by checking the temporal consistency of the matched keyframes.
  • Multimedia content analysis has two phases. The first is an offline phase in which descriptors associated with reference contents are determined and stored in a database. The second phase is an online analysis phase itself, during which multimedia content is compared to the reference content.
  • the present invention relates more particularly to the first phase.
  • the change of visual content unrelated to a change of frame for example the movement of people, the change of expression of a person, can not be correctly taken into account for the key image determination.
  • Clustering techniques involve a determination of the number of groups ("cluster") either by a choice a priori, or according to parameters of the algorithm used. In both cases, each group generates a keyframe. The number of keyframes thus depends on a setting of the algorithm used, and not on the content of the processed images.
  • this technique is based on global descriptors, and is therefore less robust to changes in the image, as discussed above.
  • the present invention aims to overcome the disadvantages of the prior art by providing a key elementary entity determination method in a multimedia content comprising a succession of elementary entities, wherein, for at least a part of the succession of entities elementary content of said part and a step of determining at least one local descriptor for said at least one region of interest. it further comprises the following steps: quantification of the local descriptors thus determined; forming, by elementary entity of said portion, a histogram representative of the quantified values of the local descriptors of the elementary entity, selecting a plurality of histograms constituting retained histograms, as a function of a calculated distance between the histograms of the elementary entities; selecting at least one key elementary entity according to the selected histograms.
  • the key elementary entities determined represent all the multimedia content, with as little redundancy as possible.
  • the key elementary entities are chosen sufficiently distant from each other, thanks to the calculations of distances between histograms representative of the quantified values of the local descriptors of the entities elementary.
  • Histograms are aggregations of local descriptors and act as global descriptors. They are easier to process than the local descriptors they represent.
  • the invention is therefore particularly suitable for indexing reference multimedia content. These reference contents are then for example used for copy detection.
  • the determination of the key elementary entities, use descriptors of the same type as those used later during the detection of copy.
  • the key elementary entities are therefore selected according to the use that will be made thereafter.
  • the calculated distance between the histograms belongs to the following list: an intersection of histograms,
  • said selection step comprises: the selection of a model histogram
  • the determination of at least one key elementary entity according to the list of histograms selected comprises a selection belonging to the following list:
  • the first possibility involves fewer calculations and is therefore simpler to implement.
  • the second and the third provide a key elementary entity more representative of the elementary entities between two elementary entities each corresponding to a retained histogram.
  • the selection of at least one elementary entity between two elementary entities each corresponding to a retained histogram belongs to the following list: selection of a substantially central elementary entity with respect to two elementary entities each corresponding to a histogram selected, selecting an elementary entity that contains the most descriptors common to the elementary entities between two elementary entities each corresponding to a selected histogram.
  • the test comprises comparing the calculated distance to a threshold and adding the candidate histogram is performed if the calculated distance is greater than the threshold, or the test includes a hopping detection in a succession of calculated distances and the addition of the candidate histogram is performed if a jump is detected.
  • the invention also relates to a method of indexing multimedia content, characterized in that it comprises the key elementary entity determination method in a multimedia content comprising a succession of elementary entities, as previously described.
  • the invention also relates to a multimedia content detection method characterized in that it comprises the key elementary entity determination method in a multimedia content comprising a succession of elementary entities, as previously described.
  • the invention relates to a key elementary entity determination device in a multimedia content comprising a succession of elementary entities, in which are included means for determining at least one region of interest per elementary entity of at least one elementary entity. part of the succession of elementary entities of the multimedia content, means for determining at least one local descriptor for said at least one region of interest;
  • the device is such that it further comprises: means for quantifying the local descriptors determined; means for forming, by elementary entity of said part, a histogram representative of the quantified values of the local descriptors of the elementary entity, means for selecting a plurality of histograms constituting retained histograms, as a function of a calculated distance between histograms of elementary entities; means for selecting at least one key elementary entity according to the selected histograms.
  • the invention also relates to a computer program product downloadable from a communication network and / or recorded on a computer readable medium and / or executable by a processor, characterized in that it includes program code instructions for implementing the process according to
  • FIG. 1 represents a method embodiment of the invention
  • FIG. 2 represents steps of the method according to the invention
  • FIG. 3 represents an embodiment of a device according to the invention.
  • the method of determining reference elementary entity in a multimedia content is applied to a video comprising a succession of images. It is assumed that the video has N images, N being an integer.
  • the method comprises steps E1 to E5.
  • the steps E1 to E4 are performed iteratively for all the IM 1 images of the video, for i integer varying from 1 to N. As a variant, they are traversed only for part of the succession of the images, for example for an image all the X images, X being any integer.
  • the step E1 is the determination of at least one region of interest ROI, j in the current image IM 1 , j being an integer.
  • the determination of regions of interest is conventional.
  • a region of interest is a set of salient pixels, that is to say, having a strong contrast with the neighborhood of this region. It is possible to identify regions of interest or points of interest, or both.
  • a neighborhood of points around the point of interest is further defined, so that it is a region of interest.
  • step E2 is the determination of a local descriptor D ,, for each region of interest ROIi 1 .
  • a descriptor is a vector whose components are real.
  • a descriptor of the same nature is used for all the regions of interest of all the images considered.
  • a color or shape descriptor For example, a color or shape descriptor, a differential descriptor, or a descriptor of the gradient distribution of the region of interest are used.
  • the next step E3 is a quantization of the components of the descriptor D ,,.
  • the vector (7.21, 4.10, 1.85) will be represented by the quantized vector (4, 3, 1) and the vector (4.82, 9.10, 3.21) by the quantized vector (3, 5, 2).
  • the components can be further normalized.
  • step E3 is a quantized descriptor.
  • step E4 is the formation of a histogram H ,, for the image
  • the histogram H represents the quantified values taken by the descriptor (s) of the image. More precisely, the histogram represents the frequency of appearance in the image of a given descriptor value.
  • This histogram H is therefore a global descriptor image that aggregates a set of local descriptors describing parts of image.
  • This way of constructing an image descriptor makes it possible to make it independent of the framing of the image, which is not necessarily the case for conventional global image descriptors, especially for the descriptors constructed from a division into blocks of the image. In fact, in this case, only the value of the local descriptors appears and not the position of the corresponding point of interest. Thus, two images sharing part of their content will have histograms of similar descriptors, even if this common content appears at different positions in the two images.
  • Step E5 is the selection of keyframes IC k , as a function of distances calculated between the previously determined histograms.
  • Step E5 is detailed with reference to FIG. 2.
  • the selection of keyframes comprises substeps E50 to E55.
  • Step E50 is the selection of a first histogram model HM.
  • the histogram of the first image for which a histogram has been determined is selected.
  • the next step E51 is the calculation of a distance D (HM, Hj) between the histogram H 1 of a current image and the histogram model HM.
  • histogram intersection is well suited to keyframe selection.
  • the next step E52 is a test on the distance D (HM, Hj) previously calculated.
  • a first approach is to set a threshold and then compare the distance D (HM, Hj) with the threshold.
  • An alternative approach is to use a jump detection method (for example the Page-Hinckley method) which makes it possible to detect a jump in a noisy signal.
  • Step E52 is then followed by step E53 at which the current image is associated with the model and a next histogram is considered, until all the histograms have been processed.
  • the histograms are considered one after the other, in the temporal order of the images of the sequence with which they are respectively associated.
  • Step E53 is followed by step E51 previously described.
  • step E52 If in step E52 the distance is greater than the threshold S, or if a jump is detected in the signal consisting of the succession of distances, then the current image can not be associated with the current model because its content is too different. The moment corresponding to this image (the current moment) is then considered as the starting point of a new sequence of correlated images, that is to say, sharing a certain similarity.
  • the previous image is the last image corresponding to the previous sequence.
  • Step E52 is then followed by step E54 at which the histogram of the current image becomes a model histogram and a next histogram is considered until all the histograms have been processed.
  • the histograms are considered one after the other, in the temporal order of the images of the sequence with which they are respectively associated.
  • Step E54 is followed by step E51 previously described.
  • steps E53 and E54 are followed by step E55 at which at least one keyframe IC k is determined.
  • an image representative of the set, said keyframe is extracted. It can be the central image, that is to say, corresponding to the average time (possibly approximated) of the images constituting the sequence.
  • This image is for example a mosaic of images constructed from all the images of the sequence in question.
  • the result of the video processing according to the invention is at least one keyframe, generally a plurality of keyframes. These keyframes are stored for later use in the analysis of videos that will be compared to the video processed according to the invention.
  • FIG. 3 represents a key elementary entity determination device in a multimedia content, according to the invention.
  • This device implements a key elementary entity determination technique in a multimedia content according to the particular embodiment described above.
  • Such a device comprises in particular a memory 61 consisting of a buffer memory, a processing unit 62, equipped for example with a microprocessor, and driven by the computer program 63, implementing the method according to the invention.
  • the code instructions of the computer program 63 are for example loaded into a RAM before being executed by the processor of the processing unit 62.
  • the processing unit 62 receives as input a content multimedia 20 to be processed.
  • the microprocessor of the processing 62 implements the steps of the method described above, according to the instructions of the computer program 63.
  • the key elementary entity determination device in a multimedia content comprising a succession of elementary entities, comprises: means for determining at least one region of interest per elementary entity of at least a portion of the succession of elementary entities of the multimedia content, means for determining at least one local descriptor for said at least one region of interest, means for forming a plurality of histograms of the local descriptors for, respectively, a plurality elementary entities of said part, means for selecting at least one key elementary entity as a function of a calculated distance between the histograms of said plurality of histograms.
  • the processing unit 62 outputs a result in the form of at least one keyframe, generally a plurality of keyframes. These keyframes are stored for later use in the analysis of videos that will be compared to the video processed according to the invention.

Abstract

L'invention concerne un procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, caractérisé en ce qu'il comporte les étapes suivantes, pour au moins une partie de la succession des entités élémentaires (IMi) du contenu multimédia : détermination (E1) d'au moins une région d'intérêt (ROIi j) par entité élémentaire de ladite partie, détermination (E2) d'au moins un descripteur local pour ladite au moins une région d'intérêt, formation (E4) d'une pluralité d'histogrammes (Hi) des descripteurs locaux pour, respectivement, une pluralité d'entités élémentaires de ladite partie, sélection (E5) d'au moins une entité élémentaire clé (ICk) en fonction d'une distance calculée entre les histogrammes de ladite pluralité d'histogrammes.

Description

Détermination d'entité élémentaire clé dans un contenu multimédia
Le domaine de l'invention est celui de la transmission ou de l'échange de contenus multimédia. Plus précisément, l'invention concerne la détermination d'entité élémentaire clé dans un contenu multimédia, en vue notamment de l'analyse et le contrôle de tels contenus, comme par exemple la détection de copies d'un contenu référencé.
La généralisation des communications à haut débit, par exemple offert par l'ADSL, a induit l'émergence de nouveaux services permettant une consommation facilitée du contenu multimédia, comme les services de vidéo à la demande.
Des fournisseurs de contenus proposent ainsi en ligne leur catalogue vidéo. Les contenus multimédia proposés par ces services sont protégés, et soumis par exemple à un paiement pour pouvoir les télécharger. Par ailleurs, sont apparus des sites d'échange de contenus multimédia.
Ces contenus multimédia proviennent des utilisateurs eux-mêmes. Malheureusement, bien qu'une partie des contenus observés sur ces sites d'échanges provienne de contenus réellement créés par les utilisateurs, une autre partie est constituée de contenus illégalement proposés au téléchargement.
Il est donc souhaitable de pouvoir détecter les copies illicites d'un contenu protégé.
Plus précisément, la détection de copies vidéo permet : d'identifier les contenus référencés en catalogue, c'est-à-dire référencés dans une base de référence, afin de détecter les copies illicites des contenus de référence ; de relever les contenus fortement copiés (dé-doublonnage) afin de déceler les contenus générateurs d'audience, ou de limiter les tailles de stockage.
Une telle détection doit pouvoir prendre en compte les altérations usuelles que peut subir un contenu dans ce contexte : forte compression, ré- échantillonnage, recadrage, mais aussi incrustation de texte, logos, projections filmées (en anglais « camcording »), etc. En effet, un contenu copié subit généralement des transformations intentionnelles, afin de le rendre difficilement détectable, ainsi que des transformations non-intentionnelles, dues à l'enregistrement du contenu, à son transcodage, ou encore à des contraintes éditoriales lors de sa republication.
Classiquement, la détection de copies de documents multimédia (images, sons, vidéos, etc) consiste à rechercher la présence ou non d'un document requête « suspect » dans une base de documents protégés. Une telle technique repose sur deux aspects essentiels : - la description du contenu visuel du document vidéo, i.e. les descripteurs utilisés ; la technique d'indexation des descripteurs, i.e. la méthode utilisée pour structurer la base des descripteurs des documents protégés, qui permet d'exécuter efficacement des recherches.
Classiquement, les descripteurs des documents sont des vecteurs numériques de grande dimension auxquels est associée une mesure de similarité (souvent une distance). Cette mesure de similarité permet de quantifier la ressemblance entre deux documents en mesurant la proximité entre leurs descripteurs. En particulier, ces descripteurs doivent être robustes aux altérations des documents.
Dans le domaine de l'analyse de contenus vidéo, on utilise principalement une description basée sur les images clés. Cette technique consiste à sélectionner à partir du contenu vidéo un sous-ensemble d'images, appelées images clés, et de décrire ces images clés. On distingue deux approches : les approches locales : à partir de chaque image clé, un ensemble de régions d'intérêt est sélectionné dans l'image. Un descripteur est ensuite calculé pour chaque région d'intérêt ; les approches globales : chaque image clé est décrite dans son ensemble en calculant un seul descripteur. La détection de copies vidéo correspond donc à une détection de copies d'images provenant d'une même source vidéo dans un ordre temporel cohérent. Autrement dit, mettre en correspondance un document vidéo copié avec le document vidéo original, revient à mettre en correspondance les descripteurs des images clés des deux documents en vérifiant la cohérence temporelle des images clés mises en correspondance. Cette approche est notamment décrite dans le document « Statistical similarity search applied to content-based video copy détection ») de A. JoIy et al {icdew, p. 1285, 21 st International Conférence on Data Engineering Workshops (ICDEW'05), 2005).
De nombreuses techniques d'analyse d'un contenu multimédia utilisent une description locale, par exemple basée points d'intérêt pour la description d'images, considérant que les descripteurs locaux sont plus robustes que les descripteurs globaux. De plus, l'information décrivant le contenu multimédia est répartie en différentes régions de l'image. Par conséquent, l'altération de certaines de ces régions (par exemple lors de l'incrustation d'un logo dans une image, ou encore lors du rognage de l'image, en anglais « cropping ») n'affecte pas les autres régions qui permettent d'identifier le document.
Ces descripteurs locaux sont très coûteux à la fois en stockage et en temps d'exécution des requêtes. En effet, la description d'une image par plusieurs descripteurs multiplie d'autant la taille de la base des descripteurs par rapport à un schéma de descripteurs globaux d'une part, et augmente le coût d'une recherche d'autre part. En effet, pour retrouver l'image originale d'une image requête, il est nécessaire de rechercher les descripteurs similaires à chacun des descripteurs locaux de l'image requête puis d'intégrer l'ensemble des résultats. Le problème du coût de la recherche affecte également les techniques de description globale, notamment quand la taille de la base des descripteurs des contenus protégés est volumineuse.
L'analyse de contenu multimédia comporte deux phases. La première est une phase hors ligne dans laquelle des descripteurs associés à des contenus de référence sont déterminés et mémorisés dans une base de données. La seconde phase est une phase en ligne d'analyse proprement dite, pendant laquelle un contenu multimédia est comparé aux contenus de référence.
La présente invention concerne plus particulièrement la première phase. L'article "A geometrical Key-frame sélection method exploiting dominant motion estimation in video" de Brigitte Fauvet, Patricl Bouthémy, Patricl Gros et Fabien Spindler, dans Proc of the Int. Conf. On Image and Video Retrieval, Dubiln, juillet 2004, propose d'estimer le mouvement dominant dans la vidéo, pour évaluer les changements de cadrage. A chaque image, on estime la part de l'image correspondant à une zone nouvelle par rapport à l'image précédente. Une image clé est définie quand la somme des parties nouvelles devient importante.
Selon cette technique, le changement de contenu visuel non lié à un changement de cadrage, par exemple le mouvement de personnes, le changement d'expression d'une personne, ne peut pas être correctement pris en compte pour la détermination d'image clé.
En outre, cette technique est limitée par le fait qu'elle compare des images consécutives, sans prendre en compte les images antérieures. Ainsi, en cas de mouvements d'aller et retour de la caméra, des images clés redondantes entre elles seront extraites. L'article "Adaptative key frame extraction using unsupervised clustering" par Yueting Zhuang, Yong Rui, T.S. Huang, S. Mehrotra, dans Proc. of the IEEE Int. Conf. On Image Processing, Chicago, Illinois, USA, octobre 1998, propose d'effectuer un regroupement ("clustering") d'images à partir d'une mesure de similarité définie par une distance entre histogrammes de couleurs. Un groupe ("cluster") est défini par une image moyenne qui agrège le contenu des images du groupe. L'image la plus représentative d'un groupe est utilisée comme image clé. Les techniques de regroupement ("clustering") impliquent une détermination du nombre de groupes ("cluster") soit par un choix a priori, soit en fonction de paramètres de l'algorithme utilisé. Dans les deux cas, chaque groupe génère une image clé. Le nombre d'images clés dépend donc d'un paramétrage de l'algorithme utilisé, et non du contenu des images traitées.
En outre, cette technique est basée sur des descripteurs globaux, et est donc moins robuste à des modifications de l'image, comme exposé plus haut.
La présente invention a pour but de résoudre les inconvénients de la technique antérieure en fournissant un procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, dans lequel, pour au moins une partie de la succession des entités élémentaires du contenu multimédia, il comporte une étape de détermination d'au moins une région d'intérêt par entité élémentaire de ladite partie et une étape de détermination d'au moins un descripteur local pour ladite au moins une région d'intérêt Le procédé est tel qu'il comporte en outre les étapes suivantes: quantification des descripteurs locaux ainsi déterminés; formation, par entité élémentaire de ladite partie, d'un histogramme représentatif des valeurs quantifiées des descripteurs locaux de l'entité élémentaire, sélection d'une pluralité d'histogrammes constituant des histogrammes retenus, en fonction d'une distance calculée entre les histogrammes des entités élémentaires; - sélection d'au moins une entité élémentaire clé en fonction des histogrammes retenus.
Grâce à l'invention, les entités élémentaires clés déterminées représentent tout le contenu multimédia, avec le moins de redondance possible. En effet, les entités élémentaires clés sont choisies suffisamment distantes les unes des autres, grâce aux calculs de distances entre histogrammes représentatifs des valeurs quantifiées des descripteurs locaux des entités élémentaires.
Ainsi, les entités élémentaires clés sont déterminées en comparant les distances des histogrammes entre elles. Les histogrammes sont des agrégations de descripteurs locaux et jouent le rôle de descripteurs globaux. Ils sont plus faciles à traiter que les descripteurs locaux qu'ils représentent.
L'invention est donc particulièrement adaptée à l'indexation de contenus multimédias de référence. Ces contenus de référence sont ensuite par exemple utilisés pour de la détection de copie. La détermination des entités élémentaires clés, utilisent des descripteurs de même type que ceux utilisés ultérieurement lors de la détection de copie. Les entités élémentaires clés sont donc sélectionnées en fonction de l'usage qui en sera fait ensuite.
Il est à noter que l'utilisation de descripteurs locaux dans l'invention rend la détection de copie robuste à des transformations de type découpe ou rognage d'image, ou incrustation de logos, car une portion de l'entité élémentaire, par exemple de l'image, peut suffir à identifier une copie.
Selon une caractéristique préférée, la distance calculée entre les histogrammes appartient à la liste suivante : - une intersection d'histogrammes,
- un coefficient de Batthacharyya,
- distances de Minkowski,
- distance euclidienne,
- distance de Manhattan, - distance de Kullback-Leibler et ses dérivées,
- Entropie croisée,
- Test du chi-2.
Selon une caractéristique préférée, ladite étape de sélection comporte : - la sélection d'un histogramme modèle,
- le calcul de la distance entre un histogramme candidat et l'histogramme modèle, - l'ajout de l'histogramme candidat à une liste d'histogrammes retenus en fonction du résultat d'un test réalisé sur la distance calculée.
Selon une caractéristique préférée, la détermination d'au moins une entité élémentaire clé en fonction de la liste d'histogrammes retenus comporte une sélection appartenant à la liste suivante :
- sélection d'au moins une entité élémentaire correspondant à au moins un histogramme retenu,
- sélection d'au moins une entité élémentaire entre deux entités élémentaires correspondant chacune à un histogramme retenu, - sélection d'au moins une entité élémentaire recalculée en fonction d'entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu.
La première possibilité implique moins de calculs et est donc plus simple à mettre en œuvre. La seconde et la troisième procurent une entité élémentaire clé plus représentative des entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu.
Selon une caractéristique préférée, la sélection d'au moins une entité élémentaire entre deux entités élémentaires correspondant chacune à un histogramme retenu appartient à la liste suivante : - sélection d'une entité élémentaire sensiblement centrale par rapport à deux entités élémentaires correspondant chacune à un histogramme retenu, sélection d'une entité élémentaire qui contient le plus de descripteurs communs aux entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu.
La première possibilité est plus rapide à mettre en œuvre car elle nécessite moins de calcul, la seconde fournit une entité élémentaire clé plus représentative des entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu. Selon des caractéristiques alternatives, le test comporte la comparaison de la distance calculée à un seuil et l'ajout de l'histogramme candidat est effectué si la distance calculée est supérieure au seuil, ou le test comporte une détection de saut dans une succession de distances calculées et l'ajout de l'histogramme candidat est effectué si un saut est détecté.
L'invention concerne aussi un procédé d'indexation de contenu multimédia, caractérisé en ce qu'il comporte le procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, tel que précédemment décrit.
L'invention concerne encore un procédé de détection de contenu multimédia caractérisé en ce qu'il comporte le procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, tel que précédemment décrit.
L'invention concerne un dispositif de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, dans lequel sont compris des moyens de détermination d'au moins une région d'intérêt par entité élémentaire d'au moins une partie de la succession des entités élémentaires du contenu multimédia, des moyens de détermination d'au moins un descripteur local pour ladite au moins une région d'intérêt; Le dispositif est tel qu'il comporte en outre: - des moyens de quantification des descripteurs locaux déterminés; des moyens de formation, par entité élémentaire de ladite partie, d'un histogramme représentatif des valeurs quantifiées des descripteurs locaux de l'entité élémentaire, des moyens de sélection d'une pluralité d'histogrammes constituant des histogrammes retenus, en fonction d'une distance calculée entre les histogrammes des entités élémentaires; des moyens de sélection d'au moins une entité élémentaire clé en fonction des histogrammes retenus.
L'invention concerne aussi un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé selon
Les procédés d'indexation, de détection, le dispositif, le produit programme d'ordinateur présentent des avantages similaires à ceux précédemment exposés.
D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation préférés décrits en référence aux figures dans lesquelles :
- la figure 1 représente un mode de réalisation de procédé selon l'invention,
- la figure 2 représente des étapes du procédé selon l'invention,
- la figure 3 représente un mode de réalisation de dispositif selon l'invention.
Selon un mode de réalisation de l'invention représenté à la figure 1 , le procédé de détermination d'entité élémentaire de référence dans un contenu multimédia est appliqué à une vidéo comportant une succession d'image. On suppose que la vidéo comporte N images, N étant un entier.
Le procédé comporte des étapes E1 à E5. Les étapes E1 à E4 sont effectuées itérativement pour toutes les images IM1 de la vidéo, pour i entier variant de 1 à N. En variante, elles ne sont parcourues que pour une partie de la succession des images, par exemple pour une image toutes les X images, X étant un entier quelconque.
L'étape E1 est la détermination d'au moins une région d'intérêt ROI,j dans l'image courante IM1, j étant un entier. La détermination de régions d'intérêt est classique. Une région d'intérêt est un ensemble de pixels saillants, c'est-à-dire présentant un fort contraste avec le voisinage de cette région. Il est possible de déterminer des régions d'intérêt ou des points d'intérêt, ou les deux. Dans le cas de la détermination d'un point d'intérêt, on définit en outre un voisinage de points autour du point d'intérêt, de sorte que cela revient à une région d'intérêt.
L'étape suivante E2 est la détermination d'un descripteur local D,, pour chaque région d'intérêt ROIi1. Un descripteur est un vecteur dont les composantes sont des réels. On utilise un descripteur de même nature pour toutes les régions d'intérêt de toutes les images considérées.
Par exemple, on utilise un descripteur de couleurs ou de formes, un descripteur différentiel, ou encore un descripteur de la répartition des gradients de la région d'intérêt.
L'étape suivante E3 est une quantification des composantes du descripteur D,,. Par exemple, si le descripteur est un vecteur à 3 composantes réelles comprises entre 0 et 10 et qu'après quantification, chaque composante peut prendre 5 valeurs discrètes distinctes (1..5), le descripteur après quantification prendra 53 = 125 valeurs discrètes différentes. Ainsi, le vecteur (7.21 , 4.10, 1.85) sera représenté par le vecteur quantifié (4, 3, 1 ) et le vecteur (4.82, 9.10, 3.21 ) par le vecteur quantifié (3, 5, 2).
En variante, les composantes peuvent être en outre normalisées.
Dans les deux cas, le résultat de l'étape E3 est un descripteur quantifié. L'étape suivante E4 est la formation d'un histogramme H,, pour l'image
IM,. L'histogramme H, représente les valeurs quantifiées prises par le ou les descripteur(s) de l'image. Plus précisément, l'histogramme représente la fréquence d'apparition dans l'image d'une valeur donnée de descripteur.
Cet histogramme H, est donc un descripteur global à l'image qui agrège un ensemble de descripteurs locaux décrivant des parties d'image. Cette façon de construire un descripteur d'image permet de rendre celui-ci indépendant du cadrage de l'image, ce qui n'est pas nécessairement le cas pour des descripteurs d'images globaux classiques, notamment pour les descripteurs construits à partir d'un découpage en blocs de l'image. En effet, dans le cas présent, seule la valeur des descripteurs locaux apparaît et non pas la position du point d'intérêt correspondant. Ainsi, deux images partageant une partie de leur contenu auront des histogrammes de descripteurs proches, même si ce contenu commun apparaît à des positions différentes dans les deux images.
Lorsque l'ensemble des étapes E1 à E4 a été effectuées pour toutes les images à prendre en compte, le résultat est une pluralité d'histogrammes correspondant respectivement aux images. L'étape suivante E5 est effectuée après la détermination de cette pluralité d'histogramme. L'étape E5 est la sélection d'images clés ICk, en fonction de distances calculées entre les histogrammes précédemment déterminés.
L'étape E5 est détaillée en référence à la figure 2. La sélection d'images clés comporte des sous-étapes E50 à E55.
L'étape E50 est la sélection d'un premier histogramme modèle HM. L'histogramme de la première image pour laquelle un histogramme a été déterminé est sélectionné.
L'étape suivante E51 est le calcul d'une distance D(HM, Hj) entre l'histogramme H1 d'une image courante et l'histogramme modèle HM.
Plusieurs distances peuvent être utilisées, par exemple :
N
- Intersection d'histogrammes : D(Hx , H2) = ^T mIn(H1 (M), H2 (w)) u=l
N - Coefficient de Batthacharyya : D(H1 , H2 ) = J] ^Hx (u),H2(u) uu==ll
- distances de Minkowski : D11(H1 M2)
Figure imgf000013_0001
- distance euclidienne (qui est une distance de Minkowski pour une valeur de p=2),
- distance de Manhattan (distance de Minkowski pour une valeur de p=1 ), - distance de Kullback-Leibler et ses dérivées,
- Entropie croisée,
- Test du chi-2.
Il est à noter que l'intersection d'histogramme est bien adaptée à la sélection d'image clé.
L'étape suivante E52 est un test sur la distance D(HM, Hj) précédemment calculée.
Une première approche consiste à fixer un seuil puis à comparer la distance D(HM, Hj) avec le seuil. Une approche alternative consiste à utiliser une méthode de détection de saut (par exemple la méthode de Page-Hinckley) qui permet de détecter un saut dans un signal bruité.
Si la distance entre ces deux histogrammes est inférieure au seuil S, ou si aucun saut n'est détecté dans le signal constitué de la succession des distances, alors l'image courante possède un contenu similaire à celle qui a servi à construire le modèle. L'étape E52 est alors suivie de l'étape E53 à laquelle l'image courante est associée au modèle et on considère un histogramme suivant, tant que tous les histogrammes n'ont pas été traités. Les histogrammes sont considérés les uns après les autres, dans l'ordre temporel des images de la séquences auxquelles ils sont respectivement associés.
L'étape E53 est suivie de l'étape E51 précédemment décrite.
Si à l'étape E52 la distance est supérieure au seuil S, ou si un saut est détecté dans le signal constitué de la succession des distances, alors l'image courante ne peut pas être associée au modèle courant car son contenu est trop différent. L'instant correspondant à cette image (l'instant courant) est alors considéré comme le point de départ d'une nouvelle séquence d'images corrélées, c'est-à-dire partageant une certaine similarité. L'image précédente est quant à elle la dernière image correspondant à la séquence précédente.
L'étape E52 est alors suivie de l'étape E54 à laquelle l'histogramme de l'image courante devient histogramme modèle et on considère un histogramme suivant, tant que tous les histogrammes n'ont pas été traités. Comme à l'étape E53, les histogrammes sont considérés les uns après les autres, dans l'ordre temporel des images de la séquences auxquelles ils sont respectivement associés. L'étape E54 est suivie de l'étape E51 précédemment décrite. Lorsque tous les histogrammes calculés pour la séquence vidéo ont été traités, les étapes E53 et E54 sont suivies de l'étape E55 à laquelle au moins une image clé ICk est déterminée.
Pour cela, on considère chaque séquence délimitée par deux images dont l'histogramme a servi d'histogramme modèle. Ces séquences sont des groupes d'images consécutives qui partagent un contenu visuel similaire.
Pour chaque séquence ainsi délimitée, on extrait une image représentative de l'ensemble, dite image clé. Il peut s'agir de l'image centrale, c'est-à-dire correspondant au temps moyen (éventuellement approché) des images constituant la séquence.
D'autres approches sont également envisageables, notamment celle consistant à analyser le contenu des images de la séquence et à choisir celle dont le contenu est le plus représentatif. Par exemple, on peut pour chaque image calculer la somme des distances entre son histogramme et tous les autres histogrammes de la séquence et choisir comme image clé celle pour laquelle cette grandeur est la plus faible.
Il est aussi possible de choisir comme images clé les images formant les bornes des séquences, c'est-à-dire les images associées aux histogrammes ayant servi de modèles.
Il est encore possible de calculer pour chaque séquence une image en fonction des images de la séquence. Cette image est par exemple une mosaïque d'images construite à partir de l'ensemble des images de la séquence considérée.
Le résultat du traitement de la vidéo selon l'invention est au moins une image clé, de manière générale une pluralité d'images clé. Ces images clés sont mémorisées pour servir ultérieurement à l'analyse de vidéos qui seront comparées à la vidéo traitée selon l'invention.
La figure 3 représente un dispositif de détermination d'entité élémentaire clé dans un contenu multimédia, selon l'invention. Ce dispositif met en œuvre une technique de détermination d'entité élémentaire clé dans un contenu multimédia selon le mode de réalisation particulier décrit ci-dessus. Un tel dispositif comprend notamment une mémoire 61 constituée d'une mémoire tampon, une unité de traitement 62, équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur 63, mettant en œuvre le procédé selon l'invention.
A l'initialisation, les instructions de code du programme d'ordinateur 63 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 62. L'unité de traitement 62 reçoit en entrée un contenu multimédia 20 à traiter. Le microprocesseur de l'unité de traitement 62 met en œuvre les étapes du procédé décrit précédemment, selon les instructions du programme d'ordinateur 63.
Pour cela, le dispositif de détermination d'entité élémentaire clé, dans un contenu multimédia comportant une succession d'entités élémentaires, comporte : des moyens de détermination d'au moins une région d'intérêt par entité élémentaire d'au moins une partie de la succession des entités élémentaires du contenu multimédia, des moyens de détermination d'au moins un descripteur local pour ladite au moins une région d'intérêt, des moyens de formation d'une pluralité d'histogrammes des descripteurs locaux pour, respectivement, une pluralité d'entités élémentaires de ladite partie, des moyens de sélection d'au moins une entité élémentaire clé en fonction d'une distance calculée entre les histogrammes de ladite pluralité d'histogrammes.
Ces moyens sont pilotés par le microprocesseur de l'unité de traitement 62.
L'unité de traitement 62 délivre un résultat sous la forme d'au moins une image clé, de manière générale d'une pluralité d'images clés. Ces images clés sont mémorisées pour servir ultérieurement à l'analyse de vidéos qui seront comparées à la vidéo traitée selon l'invention.

Claims

REVENDICATIONS
1. Procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, dans lequel, pour au moins une partie de la succession des entités élémentaires du contenu multimédia il comporte une étape de détermination d'au moins une région d'intérêt par entité élémentaire de ladite partie et une étape de détermination d'au moins un descripteur local pour ladite au moins une région d'intérêt, caractérisé en ce qu'il comporte en outre les étapes suivantes: quantification des descripteurs locaux ainsi déterminés; formation, par entité élémentaire de ladite partie, d'un histogramme représentatif des valeurs quantifiées des descripteurs locaux de l'entité élémentaire, sélection d'une pluralité d'histogrammes constituant des histogrammes retenus, en fonction d'une distance calculée entre les histogrammes des entités élémentaires; sélection d'au moins une entité élémentaire clé en fonction des histogrammes retenus.
2. Procédé selon la revendication 1 , caractérisé en ce que la distance calculée entre les histogrammes appartient à la liste suivante :
- une intersection d'histogrammes, - un coefficient de Batthacharyya,
- distances de Minkowski,
- distance euclidienne,
- distance de Manhattan,
- distance de Kullback-Leibler et ses dérivées, - Entropie croisée,
- Test du chi-2.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que ladite étape de sélection des histogrammes retenus comporte :
- la sélection d'un histogramme modèle,
- le calcul de la distance entre un histogramme candidat et l'histogramme modèle,
- l'ajout de l'histogramme candidat à une liste d'histogrammes retenus en fonction du résultat d'un test réalisé sur la distance calculée.
4. Procédé selon la revendication 1 , caractérisé en ce que la détermination d'au moins une entité élémentaire clé en fonction de la liste d'histogrammes retenus comporte une sélection appartenant à la liste suivante :
- sélection d'au moins une entité élémentaire correspondant à au moins un histogramme retenu, - sélection d'au moins une entité élémentaire entre deux entités élémentaires correspondant chacune à un histogramme retenu,
- sélection d'au moins une entité élémentaire recalculée en fonction d'entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu.
5. Procédé selon la revendication 4, caractérisé en ce que la sélection d'au moins une entité élémentaire entre deux entités élémentaires correspondant chacune à un histogramme retenu appartient à la liste suivante : sélection d'une entité élémentaire sensiblement centrale par rapport à deux entités élémentaires correspondant chacune à un histogramme retenu, sélection d'une entité élémentaire qui contient le plus de descripteurs communs aux entités élémentaires entre deux entités élémentaires correspondant chacune à un histogramme retenu.
6. Procédé selon la revendication 3, caractérisé en ce que le test comporte la comparaison de la distance calculée à un seuil et en ce que l'ajout de l'histogramme candidat est effectué si la distance calculée est supérieure au seuil.
7. Procédé selon la revendication 3, caractérisé en ce que le test comporte une détection de saut dans une succession de distances calculées et en ce que l'ajout de l'histogramme candidat est effectué si un saut est détecté.
8. Procédé d'indexation de contenu multimédia, caractérisé en ce qu'il comporte le procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires selon l'une quelconque des revendications 1 à 7.
9. Procédé de détection de contenu multimédia caractérisé en ce qu'il comporte le procédé de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires selon l'une quelconque des revendications 1 à 7.
10. Dispositif de détermination d'entité élémentaire clé dans un contenu multimédia comportant une succession d'entités élémentaires, dans lequel sont compris des moyens de détermination d'au moins une région d'intérêt par entité élémentaire d'au moins une partie de la succession des entités élémentaires du contenu multimédia, des moyens de détermination d'au moins un descripteur local pour ladite au moins une région d'intérêt, caractérisé en ce qu'il comporte en outre: des moyens de quantification des descripteurs locaux déterminés; des moyens de formation, par entité élémentaire de ladite partie, d'un histogramme représentatif des valeurs quantifiées des descripteurs locaux de l'entité élémentaire, - des moyens de sélection d'une pluralité d'histogrammes constituant des histogrammes retenus, en fonction d'une distance calculée entre les histogrammes des entités élémentaires; des moyens de sélection d'au moins une entité élémentaire clé en fonction des histogrammes retenus.
11. Produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé selon l'une au moins des revendications 1 à 9.
PCT/FR2009/052019 2008-10-24 2009-10-22 Determination d'entite elementaire cle dans un contenu multimedia WO2010046599A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0857258 2008-10-24
FR0857258 2008-10-24

Publications (1)

Publication Number Publication Date
WO2010046599A1 true WO2010046599A1 (fr) 2010-04-29

Family

ID=40548657

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/052019 WO2010046599A1 (fr) 2008-10-24 2009-10-22 Determination d'entite elementaire cle dans un contenu multimedia

Country Status (1)

Country Link
WO (1) WO2010046599A1 (fr)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANJULAN ARASANATHAN ET AL: "Invariant region descriptors for robust shot segmentation", PROCEEDINGS OF THE SPIE, USA, vol. 6073, 1 January 2006 (2006-01-01), pages 1 - 12, XP008093691, ISSN: 0277-786X *
COTSACES C ET AL: "Video shot detection and condensed representation. A review", IEEE SIGNAL PROCESSING MAGAZINE IEEE USA, vol. 23, no. 2, March 2006 (2006-03-01), pages 28 - 37, XP002524623, ISSN: 1053-5888 *
KOPRINSKA I ET AL: "Temporal video segmentation: A survey", SIGNAL PROCESSING. IMAGE COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 16, no. 5, 1 January 2001 (2001-01-01), pages 477 - 500, XP004224651, ISSN: 0923-5965 *
NAGASAKA A ET AL: "AUTOMATIC VIDEO INDEXING AND FULL-VIDEO SEARCH FOR OBJECT APPEARANCES", VISUAL DATABASE SYSTEMS, II. SECOND WORKING CONFERENCE,30 SEP. - 3 OCT. 1991, BUDAPEST, HU, AMSTERDAM, NL, 1 January 1991 (1991-01-01), pages 113 - 127, XP000473004 *
PARK M-H ET AL: "Shot boundary detection using scale Invariant feature matching", PROCEEDINGS OF SPIE - THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING, VISUAL COMMUNICATIONS AND IMAGE PROCESSING CONFERENCE 2006, vol. 6077, 17 January 2006 (2006-01-17), pages 1 - 9, XP002563321, ISSN: 0277-786X *

Similar Documents

Publication Publication Date Title
US11132555B2 (en) Video detection method, server and storage medium
US8818916B2 (en) System and method for linking multimedia data elements to web pages
US20070118910A1 (en) Identification of files in a file sharing environment
KR101143233B1 (ko) 디지탈 멀티미디아 데이타에 대한 비동기화된 핑거프린팅 방법 및 시스템
FR2968426A1 (fr) Calcul de comparaison asymetrique a grande echelle pour integrations binaires
EP2962301A2 (fr) Generation d'une signature d'un signal audio musical
CN111723692B (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
FR3041794A1 (fr) Procede et systeme de recherche d'images similaires quasi-independant de l'echelle de la collection d'images
EP2227755B1 (fr) Procede d'analyse d'un contenu multimedia, produit programme d'ordinateur et dispositif d'analyse correspondants
Nie et al. Robust video hashing based on representative-dispersive frames
FR2846828A1 (fr) Procede de tatouage d'un signal video, systeme et support de donnees pour la mise en oeuvre de ce procede, procede d'extraction du tatouage d'un signal video, systeme pour la mise en oeuvre de ce procede
US9264584B2 (en) Video synchronization
FR2893470A1 (fr) Procede et dispositif de creation d'une sequence video representative d'une sequence video numerique et procedes et dispositifs de transmission et reception de donnees video associes
Bohm et al. Prover: Probabilistic video retrieval using the Gauss-tree
Su et al. Efficient copy detection for compressed digital videos by spatial and temporal feature extraction
Vega et al. A robust video identification framework using perceptual image hashing
US9501684B1 (en) Providing non-destructive editing reconciliation
WO2010046599A1 (fr) Determination d'entite elementaire cle dans un contenu multimedia
Bober et al. MPEG-7 visual signature tools
EP2245555A1 (fr) Procede d'identification d'un document multimedia dans une base de reference, programme d'ordinateur, et dispositif d'identification correspondants
Bhaumik et al. Real-time storyboard generation in videos using a probability distribution based threshold
WO2017063722A1 (fr) Procede et dispositif de detection de copies dans un flux de donnees visuelles
Sun et al. Hash length prediction for video hashing
Ghosh et al. Duplicate image detection in large scale databases
Valsesia et al. ToothPic: camera-based image retrieval on large scales

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09760190

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09760190

Country of ref document: EP

Kind code of ref document: A1