WO2017063722A1 - Procede et dispositif de detection de copies dans un flux de donnees visuelles - Google Patents

Procede et dispositif de detection de copies dans un flux de donnees visuelles Download PDF

Info

Publication number
WO2017063722A1
WO2017063722A1 PCT/EP2015/078822 EP2015078822W WO2017063722A1 WO 2017063722 A1 WO2017063722 A1 WO 2017063722A1 EP 2015078822 W EP2015078822 W EP 2015078822W WO 2017063722 A1 WO2017063722 A1 WO 2017063722A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
signature
line
module
calculating
Prior art date
Application number
PCT/EP2015/078822
Other languages
English (en)
Inventor
Hervé LE BORGNE
Etienne GADESKI
Adrian Popescu
Original Assignee
Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat A L'energie Atomique Et Aux Energies Alternatives filed Critical Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority to US15/767,629 priority Critical patent/US20180293461A1/en
Priority to JP2018519029A priority patent/JP2018532198A/ja
Priority to US15/234,671 priority patent/US20170103285A1/en
Publication of WO2017063722A1 publication Critical patent/WO2017063722A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0028Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0201Image watermarking whereby only tamper or origin are detected and no embedding takes place
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Definitions

  • the invention relates to the field of transmission and exchange of multimedia documents, for example an image or a video. More specifically, the invention relates to the detection of quasi-copies of visual content.
  • the quasi-copy of an image is a reference image that has undergone one or a combination of transformations.
  • the reference images can belong to a fixed base of images or have been previously collected via a visual data stream.
  • the following transformations are examples most likely to be encountered on the internet, among the current images published in the main social media such as blogs, social networks, forums, online newspapers, etc. : - a compression, in JPEG for example;
  • a coding change such as a conversion to PNG for example
  • Cropping ("crop” in English) with for example a deletion of the edges of the image, not necessarily centered;
  • copy detection is an operation that consists in identifying an image by its content, a technique known as "content based retrieval" according to the conspicuous anglicism.
  • content is a stream of data that must be continuously processed
  • copy detection image or keyframe extracted from a video
  • copy detection approaches rely on a method where the generation of compact visual signatures are constructed by aggregating local features of an image to speed up the search process.
  • the processing of a copy detection request includes the calculation of a signature of the image to be analyzed and the search for a quasi-copy in the reference images, it is necessary that the total processing time is compatible with the flow rate of the data stream to be processed.
  • indexing time signature calculation
  • the computation time of the visual signatures must be compatible with the frequency of reception of new data.
  • Figure 1 shows a standard processing chain for copy detection.
  • the general principle is to search in a reference database for an image by its content and to decide whether the image is a copy or a quasi-copy of a reference image.
  • the request processing device comprises on a first offline processing chain (102), which includes a visual feature extraction module (104-1) which consists in establishing a vector representation of a given image (Reference documents), a representation that may include one or more vectors, and an indexing module (106) for indexing the descriptors derived from the feature extraction, and thus constituting a reference indexed base that can be efficiently searched.
  • the indexing may include labels in cases where several reference images are themselves quasi-copies.
  • the device further includes a second in-line processing chain (108) for processing a request, which includes a visual feature extraction module (104-2) for establishing a vector description of a request image, coupled to a module method (1 10) which uses the vector description of the query image and queries the reference database to find similar images, and which is coupled to a decision module (1 12) to determine whether the request image is a copy or not of a reference image.
  • a visual feature extraction module 104-2
  • module method (1 10) which uses the vector description of the query image and queries the reference database to find similar images, and which is coupled to a decision module (1 12) to determine whether the request image is a copy or not of a reference image.
  • a known alternative is to use a global signature of an image to be analyzed. Indexing then often consists of a concatenation operation, resulting in a raw signature file.
  • the comparison operation then consists of determining a simple distance (or similarity) between vectors.
  • the advantage of this approach is that the calculation of the signature is fast.
  • the disadvantage is that it is generally less robust to transformations than approaches using local descriptors.
  • the comparison speed is proportional to the size of the reference base and the size of the signatures. It is therefore a question of finding the smallest possible signatures.
  • the following references provide articles relating to the global signature calculation.
  • Figure 2a illustrates the construction of the hash function for a line T according to this principle.
  • a request image is reduced to a fixed size of 8 rows x 9 columns.
  • the step of comparing the pixels consists in assigning a true value if the intensity of a pixel is greater than the intensity of the adjacent pixel.
  • the resultant hexadecimal encoded bit line (hash of line ⁇ ) is a line of eight values '0.0,1, 1, 0,1, 1, 0'.
  • the resulting image is a size image (8x8).
  • a line ⁇ ' consists of eight columns B1 to B8 of respective pixel values' 121, 122, 120, 87, 76, 125, 19, 84'.
  • the resulting hexadecimal-encoded bit line (hash of line ⁇ ) is a line of four values '1, 1, 0,1'.
  • the resulting image is a size image (8x4).
  • the present invention meets this need.
  • the solution described aims to solve the problem of searching for visual content in a context of visual data flows.
  • an object of the present invention is to provide a device and a method of copy detection based on a new way of obtaining the overall signature of an image.
  • the method of the invention which makes it possible to generate an image signature is fast, and makes it possible to calculate a signature in a time interval of the order of or less than 5 ms for a usual resource machine, such for example a machine operating in a frequency range of 3 GHz.
  • the signature obtained by the method of the invention is very compact, less than 100 bytes, thus allowing a rapid search and exhaustively in a large database, the content of the base depending on the available memory size and may for example contain from 10 7 to 10 8 images.
  • the image signature obtained by the method of the invention can be quantified by means of a K-median method in order to be indexed in an inverted index structure making it possible to accelerate the search.
  • a similar method, quantifying a K-average GIST signature is described in M. Douze, H. Jégou, H. Sandhawalia, L. Amsaleg, and C. Schmid, "Evaluation of Gist Descriptors for Web-Scale Image Search," "in International Conference on Image and Video Retrieval. New York, NY, USA: ACM, 2009, pp. 19: 1-19: 8.
  • the K-median method is identical to the K-mean method (well known to those skilled in the art) by replacing the averaging by a median calculation. More generally, the image signature obtained by the method of the invention is robust to the image transformations commonly encountered on the internet.
  • the present invention is advantageous in any application where there is the problem of having to search for illegal copies of protected content, want to measure the popularity of content broadcast, want to locate a program within a video or for social media watch apps.
  • the method includes receiving an initial image, converting the initial image to grayscale, resizing the gray image to a reduced image having a plurality of lines and an even number of columns, calculating an overall signature of the reduced image, and determine whether the initial image is a copy or near-image copy according to the result of a comparison between the global signature of the reduced image and reference image signatures.
  • the step of calculating the global signature of the image comprises the steps of calculating a line signature for each line of the reduced image, the calculation being based on a comparison of values, obtained by statistics on subsets of symmetrical pixels on each line, and concatenate the line signatures to obtain an overall signature of the image.
  • the step of calculating a line signature comprises the steps of defining a plurality of symmetrical pixel regions for the reduced image, and on each line selecting groups of symmetric pixel subsets. (Pxi, Pyj), each subset being defined so that if a pixel belongs to a group Pxi its symmetrical on the line belongs to the group Pyj.
  • the statistical values are an average on the subsets of pixels and the line signature is a value assigned to an element of a hash function as a function of the statistical value.
  • the value assigned to an element of a hash function is equal to '1' if the average obtained for a subset Pxi is greater than that obtained for the subset Pyj symmetric.
  • the global signature is a global hash function obtained by concatenating the hash functions calculated for each line.
  • the step of calculating the overall signature comprises the addition of a global statistic.
  • the resizing of the grayed image consists of reducing the initial image to a first image of ⁇ 'lines by' W + K 'columns where W is even and' K 'odd, then to reduce to second picture of ⁇ 'lines by' W columns with 'W pair.
  • the step of calculating the global signature consists in calculating an overall signature for the initial image and for transforming the image into polar coordinates.
  • the method may further comprise after the step of resizing the image, a step of determining a stable center of the image depending on the content.
  • the method may comprise a step of quantifying the signature by means of K-medians.
  • the comparison step is then implemented by means of an inverted index structure.
  • the invention also includes a device for generating reference image signatures that can receive an initial reference image, convert it to grayscale, resize the gray reference image to a reduced reference image having a reference image. plurality of rows and an even number of columns, and calculating a line signature for each row of the reduced reference picture where the calculation is based on a comparison of statistically obtained values on subsets of symmetrical pixels on each line.
  • the resulting line signatures are concatenated to obtain a reference image signature.
  • the invention may operate in the form of a computer program product that includes code instructions for performing the claimed process steps when the program is run on a computer.
  • Figure 1 illustrates the functional blocks of a known copy detection device
  • Figures 2a and 2b illustrate two examples of construction of a line signature according to known methods
  • FIG. 3 illustrates the steps of the method for obtaining a signature of an image according to one embodiment of the invention
  • Figure 4 illustrates the functional blocks of the device of the invention in one embodiment.
  • FIG. 3 shows the main steps of the method of the invention for calculating a global signature of an image that is to say the construction of a global descriptor of the image.
  • the method of the invention can be implemented from hardware and software elements.
  • the software elements may be available as a computer program product on a computer readable medium, which medium may be electronic, magnetic, optical or electromagnetic.
  • Hardware elements may be available in whole or in part as dedicated integrated circuits (ASICs) or dedicated integrated circuits
  • FPGA reprogrammable programmable
  • the method (300) is implemented within a device for extracting visual characteristics such as that represented in FIG. 1 (104-1, 104-2).
  • the method is applied in offline offline mode when forming a reference image database, and operated in Online continuous mode for analyzing images in visual data streams.
  • the method begins (300) either upon receipt of a request to constitute a reference image, or upon receipt of a request to detect that an image of a visual data stream is the copy or near-copy of a reference image.
  • image designates an image from an initial image in a visual data stream, or an image from an initial image to be a reference image.
  • a first step (302) the initial image is converted into gray levels. It is not detailed here this operation that the skilled person can apply by conventional techniques.
  • An alternative is for example to calculate the actual luminance.
  • Another alternative may be to calculate the function "(R + G + B) / 3", as proposed in particular in the OpenCV® library by the function cvCvtColor ().
  • this step which averages the chrominance planes introduces a robustness to colorimetric transformations.
  • the method makes it possible to reduce the size of the "gray" image.
  • only an even subset of columns is retained for resizing, for example by not retaining the central column of the image and if necessary not the columns at the extremes of the image, in order to preserve a second image having ⁇ 'lines of pixels by' W columns of pixels where 'W is even, and thus finally obtaining a descriptor that can be invariant to right-left invariance.
  • the resizing of the image can be done by applying a known interpolation technique, a possible approach being to average the neighboring pixels.
  • the resizing of the image can be done by a linear interpolation, bi-linear, bi-cubic or spline for example.
  • this step makes it possible to eliminate details that are considered unattractive for characterizing the reference image, such as "Watermark” watermark details or text.
  • the resizing step also improves the robustness of the process to resampling transformations, retaining or not the original ratio.
  • the method operates on each line of the reduced image to define a plurality of symmetrical pixel regions.
  • the method allows for each line, to select groups of subsets of symmetrical pixels (P x ', P y j ), each subset being defined so that if a pixel belongs to a group ⁇ ⁇ ', its symmetrical line belongs to the group P y j .
  • the subsets that are defined are not necessarily “totally exclusive”.
  • the method makes it possible to calculate a statistic for each subset of pixels and to assign a value to the element of the corresponding hash function as a function of the statistical value obtained.
  • the statistic consists in calculating for each subset of pixels, an average i 'for pixels of the group P x 'and' ⁇ for the pixels of the group P y j , then to assign the value '1' to the hash element if the average obtained for the subset P x j is greater than that for the subset P y j or otherwise the value ⁇ '.
  • the method allows in a next step (310) to calculate a global hash value for the reduced image.
  • the global hash function is the concatenation of hash functions calculated for each line.
  • the global hash function is of size 'HxJ'. Since the hash values are binary (they take values 0 or 1 only), the 'HxJ' dimensions of the global hash function can be encoded on at most E [HxJ / 8] +1 bytes, where E [x] is the integer part of x.
  • the signature becomes more robust to others
  • the calculation of the signature of the image to add (to the global hash function) the number of times the average of two elements of a pair ( ⁇ ⁇ ', P y j ) is identical (number of equalities).
  • the computation of the global signature of the image can add (to the global hash function) one or more global statistics.
  • the calculation can take into account the number of times the average of two elements of a pair is identical (number of equalities) as well as an overall statistic such as the average intensity of the image.
  • the size of the global signature is then
  • the signature of size "HxJ + G + 1" can be coded on (E [HxJ / 8] + 1 + 2xG + 2) bytes.
  • the method 300 may be applied to the original grayscale image and its transformation into polar coordinates.
  • the center of symmetry on a line can be arbitrarily set for all images.
  • the center of symmetry can be determined automatically according to the content of the image so as to obtain a more stable center.
  • One way of doing things may be, for example, to calculate the center of gravity of the pixels (average of the spatial positions weighted by the value of gray level of the pixels) for a succession of resizing smaller than the original image, then to choose the center of symmetry when the centroid remains in a stable spatial neighborhood.
  • the barycentre of the pixels can be calculated possibly after a digital filtering which can for example perform a conversion of the image in gray level.
  • the signature generation method 300 for an image may be followed by a comparison method when it is applied in online continuous mode.
  • the comparison made within a comparison module of the processing chain (module 1 of FIG. 1) makes it possible to compare the global signature obtained online with signatures of the reference database which have calculated offline.
  • the method may comprise a step of quantifying the signature by means of K-medians.
  • the comparison step is then implemented by means of an inverted index structure.
  • Such a method of accelerating the search time by K-average quantitation is described for the GIST descriptor in M. Douze, H. Jégou, H. Sandhawalia, L. Amsaleg, and C. Schmid, "Evaluation of gist descriptors for web-scale image search, "in
  • the quantization is performed using a K-median algorithm, identical to the K-averages algorithm, replacing the mean with a median.
  • the comparison is performed by calculating a distance between the global signature and image signatures from the reference base.
  • the distance is composite and corresponds to the average of the distances 'dH' and 'dME' where dH is the Hamming distance on the global hash functions, and 'dME' a distance on the global statistics and the number of dashes. 'equality.
  • dME can be the Manhatan distance or the Euclidean distance.
  • the method of the invention was evaluated on the benchmark proposed by B. Thomee, MJ Huiskes, EM Bakker, and MJ Lew. 3. It consists of 6000 images that have been transformed in 60 different ways, the transformations having been chosen after a survey of 45 people familiar with image processing. The 360,000 resulting images were merged with two million images to form the baseline, the original 6000 images are used in query and the performance is measured in "Mean Average Precision" (mAP), a measure well known to those skilled in the art.
  • mAP Mean Average Precision
  • a reference of the 'GIST' method is: A. Oliva and A. Torralba, "Modeling the Shape of the Scene: A holistic representation of the spatial envelope," International Journal of Computer Vision, vol. 42, no. 3, pp. 145-175, 2001.
  • a reference to the 'TOP SURF' method is: B. Thomee, E. M. Bakker, and M. S. Lew, "Top-surfing: a visual words toolkit.” in ACM
  • the proposed method obtains superior performance methods state of the art, and is especially much faster in the comparison step.
  • the advantages of the method of the invention are, among other things, that a signature is very fast to calculate, less than 5ms on average with only one core of Intel (R) Core (TM) processor 17-4800MQ CPU @ 2.70GHz for a VGA size image.
  • the signature is compact enough to allow searching for millions of images in less than 100ms, still with a single core Intel® Core processor at 7-4800MQ CPU @ 2.70GHz.
  • the method allows the signature to be robust to the most usual transformations found on the web.
  • Figure 4 illustrates the functional blocks of the device (400) of the invention for detecting copies or near-copies of images in one embodiment.
  • the device comprises modules able to perform the steps of the method described with reference to FIG.
  • the device (400) comprises a receiver module (402) adapted to receive an initial image.
  • the initial image is transmitted to a conversion module (404) able to convert the initial image into grayscale. Once grayed out, the grayed-out image is transmitted to a module of
  • the resizing (406) adapted to resize the gray image to a reduced image, the reduced image having a plurality of lines and an even number of columns.
  • the reduced image is then transmitted to a calculation module (408) able to calculate an overall signature of the reduced image.
  • the calculation module comprises a first component (409) for calculating a line signature for each line of the reduced image, and a second component (410) for concatenating the line signatures to obtain an overall signature.
  • the calculation is based on a comparison of values obtained by statistics on subsets of symmetrical pixels of each line.
  • the device further comprises a comparison module (412) adapted to compare the overall signature of the obtained reduced image with reference image signatures (430) to determine if the initial image is a copy or near-copy. image according to the result of the comparison.
  • the reference image signatures (430) are obtained by a device (420) operating offline and comprising a receiver module (422) adapted to receive an initial reference image, a conversion module (424) capable of converting the initial reference image in grayscale, a resizing module (426) adapted to resize the grayed reference image to a reduced reference image having a plurality of lines and an even number of columns, a calculation module (428) capable of calculating a line signature for each line of the reduced reference image, and wherein the calculation is based on a comparison of values obtained by statistics on subsets of pixels symmetrical on each line, and a module (430) for concatenating the line signatures and obtaining a reference image signature.
  • the modules of the device of the invention may be hardware and / or software elements.
  • the software elements may be available as a computer program product on a computer readable medium, which medium may be electronic, magnetic, optical or electromagnetic.
  • the hardware elements may be available in whole or in part as Dedicated Integrated Circuits (ASICs) or Reprogrammable Dedicated Integrated Circuits (FPGAs) or as a DSP Digital Signal Processor or as a GPU graphics processor.
  • ASICs Dedicated Integrated Circuits
  • FPGAs Reprogrammable Dedicated Integrated Circuits
  • DSP Digital Signal Processor or as a GPU graphics processor.

Abstract

La présente invention concerne un procédé et un dispositif pour détecter des copies ou quasi-copies d'images, consistant à recevoir une image initiale, convertir l'image initiale en niveaux de gris, redimensionner l'image grisée en une image réduite ayant une pluralité de lignes et un nombre pair de colonnes, calculer une signature globale de l'image réduite, et déterminer si l'image initiale est une copie ou quasi-copie d'image selon le résultat d'une comparaison entre la signature globale de l'image réduite et des signatures d'images de référence. L'étape de calcul de la signature globale comprend les étapes de calculer une signature de ligne pour chaque ligne de l'image réduite, le calcul étant basé sur une comparaison de valeurs, obtenues par statistique sur des sous- ensembles de pixels symétriques sur chaque ligne, et concaténer les signatures de ligne pour obtenir une signature globale.

Description

PROCEDE ET DISPOSITIF DE DETECTION DE COPIES DANS UN FLUX DE DONNEES VISUELLES
Domaine de l'invention
L'invention concerne le domaine de la transmission et de l'échange de documents multimédia, par exemple une image ou une vidéo. Plus précisément, l'invention concerne la détection de quasi-copies de contenu visuel.
Etat de la Technique
L'avènement du web social a engendré une augmentation massive de la propagation de contenu visuel - images, vidéo - sur les sites Web ou sur les profils des utilisateurs de réseau social en ligne (OSN). Les contenus diffusés et relayés peuvent être à l'identique, et l'on parle de copies de contenu, voire contenir des modifications mineures, et l'on parle de quasi-copies de contenu. Dans la suite de la description, les expressions « copie de contenu », « copie d'image », « détection de copie » et autres variantes utilisant le terme « copie » seront à interpréter comme englobant le terme copie et/ou quasi-copie.
Il est généralement admis que la quasi-copie d'une image est une image de référence ayant subi une ou une combinaison de transformations. Les images de référence peuvent appartenir à une base fixe d'images ou encore avoir été collectées précédemment via un flux de données visuelles. Les transformations suivantes sont des exemples les plus susceptibles d'être rencontrées sur internet, parmi les images courantes publiées dans les principaux média sociaux que sont les blogs, les réseaux sociaux, les forums, les journaux en ligne, etc. : - une compression, en JPEG par exemple ;
- un changement d'encodage comme une conversion en PNG par exemple ;
- un flip, par inversion gauche droite par exemple ;
- un changement de ratio («scaling » en anglais)
- un recadrage («crop » en anglais) avec par exemple une suppression des bords de l'image, pas forcément en centré ;
- une transformation colorimétrique, en niveau de gris, en sépia par exemple ;
- une petite rotation, inférieure à 20° par exemple ;
- une incrustation de texte (titre, signature...) ou d'image (ex : logo).
La détection de copie d'un contenu visuel de référence présente de multiples intérêts pratiques dans le domaine de l'analyse des média sociaux, que ce soit pour des blogs, des réseaux sociaux, des forums ou encore des journaux en ligne. Ce problème est au cœur d'applications diverses telles la recherche de copies illicites d'un contenu protégé, les mesures de popularité d'un contenu, la veille sur les média sociaux ou encore la localisation de programme au sein d'une vidéo, pour ne citer que quelques applications d'intérêt.
Indépendamment de son utilisation, la détection de copie est une opération qui consiste à identifier une image par son contenu, une technique connue comme « content based retrieval » selon l'anglicisme consacré. Comme une caractéristique importante à prendre en compte dans le domaine des réseaux sociaux est qu'un contenu est un flux de données qui doit être traité en continu, la détection de copie (image ou keyframe extraite d'une vidéo) provenant d'un flux de données visuelles se concentre généralement sur le temps de recherche en ligne d'une image dans une base de référence et sur la robustesse aux différentes transformations qu'une image peut subir. Ainsi, les approches connues de détection de copie ou quasi-copie s'appuient sur un procédé où la génération de signatures visuelles compactes sont construites en agrégeant des caractéristiques locales d'une image afin d'accélérer le processus de recherche. Dans le cas d'un flux de données numériques visuelles où le traitement d'une requête de détection de copie inclut le calcul d'une signature de l'image à analyser et la recherche d'une quasi- copie dans les images de référence, il est nécessaire que le temps de traitement total soit compatible avec le débit du flux des données à traiter.
Cependant, le calcul et l'agrégation de caractéristiques locales ont un coût non négligeable et le temps d'indexation (calcul de signature) doit être suffisamment petit dès lors que l'on envisage de traiter des flux d'images. Le temps de calcul des signatures visuelles doit être compatible avec la fréquence de réception de nouvelles données. Plus précisément, les opérations d'indexation et de recherche doivent être exécutées à un taux plus élevé que celui de la collecte de nouvelles données du flux arrivant. Par exemple, si un système ingère un demi-million d'articles multimédias visuels par jour, leur comparaison avec un contenu récent, supposé inclure de 10 à 100 millions of documents, doit être effectuée en moins de (24x3600) / 500 000 = 172,8 millisecondes, c'est-à-dire de l'ordre de 6 images par seconde. Une telle exigence de taux de traitement rend l'utilisation de signatures basées sur la transformation et la compression de caractéristiques locales, difficile à utiliser si les ressources informatiques sont limitées. Ainsi, le temps de traitement d'une requête doit aussi être mis en regard des ressources informatiques (mémoire, processeur) nécessaires pour assurer le service. La figure 1 présente une chaîne de traitement standard pour la détection de copie. Le principe général consiste à rechercher dans une base de référence une image par son contenu et décider si l'image est une copie ou une quasi-copie d'une image de référence. Ainsi, le dispositif de traitement d'une requête comprend sur une première chaîne de traitement hors ligne (102), qui inclut un module d'extraction de caractéristiques visuelles (104-1 ) qui consiste à établir une représentation vectorielle d'une image donnée (documents de référence), représentation qui peut comporter un ou plusieurs vecteurs, et un module d'indexation (106) pour indexer les descripteurs issus de l'extraction des caractéristiques, et ainsi constituer une base indexée de référence qui peut être efficacement fouillée. De manière optionnelle, l'indexation peut comporter des labels dans les cas où plusieurs images de référence sont elles-mêmes des quasi-copies. Le dispositif comprend de plus une seconde chaîne de traitement en ligne (108) pour traiter une requête, qui comprend un module d'extraction de caractéristiques visuelles (104-2) pour établir une description vectorielle d'une image requête, couplé à un module de comparaison (1 10) qui utilise la description vectorielle de l'image requête et interroge la base de référence pour trouver des images similaires, et qui est couplé à un module de décision (1 12) pour déterminer si l'image requête est une copie ou non d'une image de référence.
La plupart des travaux connus dans le domaine du multimédia reposent sur l'extraction de descripteurs locaux pour représenter les images. Sur chaque image de référence, un ensemble de points d'intérêt est sélectionné comme correspondant à des points visuellement remarquables de l'image et susceptibles d'être retrouvés même après une altération de l'image. Un descripteur local est ensuite calculé dans un voisinage spatial de chaque point d'intérêt. Une telle approche est présentée dans la demande de brevet WO 2009/09561 6 de Gengembre Nicolas et al. intitulée « Method of identifying a multimédia document in a référence base, corresponding computer program and identification device", ou encore dans l'article de Joly, A., Buisson, O. et Frelicot, C. titré "Content-Based Copy Retrieval Using Distortion-Based Probabilistic Similarity Search," Multimedia, I EEE Transactions on vol.9, no.2, pp.293,306, Feb. 2007.
Cependant, ce procédé est assez coûteux en temps de calcul, à la fois pour extraire les descripteurs locaux mais surtout pour retrouver les documents de référence quand la base de référence devient
volumineuse.
Par conséquent, les méthodes de descripteurs locaux présentent de bonnes performances et des schémas d'indexation efficaces ont été proposés pour les exploiter pour la recherche d'images rapide. Cependant, ces travaux sont focalisés sur le temps de recherche et les méthodes proposées sont encore trop lentes pour être appliquées à des calculs dans des flux continus de données pour lesquels le temps d'extraction de caractéristiques est un paramètre essentiel.
Une alternative connue consiste à utiliser une signature globale d'une image à analyser. L'indexation consiste alors souvent en une opération de concaténation, aboutissant à un fichier de signature brut. L'opération de comparaison consiste ensuite à déterminer une simple distance (ou une similarité) entre vecteurs. L'avantage de cette approche est que le calcul de la signature est rapide. L'inconvénient est qu'elle est généralement moins robuste aux transformations que les approches utilisant des descripteurs locaux. En outre, la vitesse de comparaison est proportionnelle à la taille de la base de référence et à la dimension des signatures. Il s'agit donc de trouver des signatures les plus petites possibles. Les références suivantes proposent des articles relatifs au calcul de signature globale.
La publication de B. Thomee, M. J. Huiskes, E. M. Bakker, et M. J. Lew "An évaluation of content-based duplicate image détection methods for web search", ICME 2013, compare plusieurs de ces approches sur un benchmark commun.
Le moteur de recherche d'image « TinEye » (www.tineye.com) qui utilise probablement une approche un peu plus simple appelée « average hash » est aussi à citer. Il s'appuie sur le fait qu'une petite modification du contenu du signal ne modifie que peu la clé de hash, contrairement aux fonctions de hash classiques. Cela permet d'utiliser des fonctions de similarité telle la distance de Hamming bien connue pour trouver des contenus « presque identiques ».
La publication de Zauner, Christoph "Implementation and Benchmarking of Perceptual Image Hash Functions » Master's thesis, Upper Austria University of Applied Sciences, Hagenberg Campus, 2010 passe en revue des fonctions de « hashing perceptives » qui sont assimilables à des signatures globales.
La publication disponible sur internet en avril 2014 à l'adresse http://blog.iconfinder.com/detecting-duplicate-images-using-python/ décrit une méthode de hashing perceptive basée sur des moyennes de bloc, rentrant dans la famille des méthodes décrites dans l'article de Zauner. En particulier, le procédé consiste en les étapes suivantes :
- convertir une image requête en niveaux de gris ; - réduire l'image grise à une taille fixe de « 8x9 » (8 lignes, 9 colonnes) ;
- comparer l'intensité des pixels adjacents de chaque ligne, pour attribuer une valeur « vrai » si un pixel a par exemple une valeur de niveau de gris supérieure à celle du pixel qui lui est adjacent à droite ; et
- coder l'image binaire résultante (8x8) en hexadécimal.
La figure 2a illustre la construction de la fonction de hash pour une ligne T selon ce principe. Dans cet exemple, une image requête est réduite à une taille fixe de 8 lignes x 9 colonnes. L'étape de comparaison des pixels consiste à attribuer une valeur Vrai' si l'intensité d'un pixel est supérieure à l'intensité du pixel adjacent. Pour cet exemple, la ligne comprend des blocs pixels (B1 -B9) d'intensité respective (B1 =120, B2=121 , B3=121 , B4=88, B5=86, B6=136, B7=130, B8=84, B9=85). Après comparaison des pixels adjacents à droite, la ligne binaire résultante codée en hexadécimal (hash de la ligne ï) est une ligne de huit valeurs '0,0,1 ,1 ,0,1 ,1 ,0'. L'image résultante est une image de taille (8x8).
Bien que ce procédé soit très rapide, il n'est robuste qu'à certaines transformations, et n'offre pas la robustesse attendue pour de nombreuses autres, comme pour l'inversion gauche-droite et pour les petites rotations.
Alternativement, l'homme du métier pourra construire une version symétrique de cette méthode en comparant des pixels symétriques, comme illustré sur la figure 2b. Une ligne Ί' est constituée de huit colonnes B1 à B8 de valeurs de pixels respectifs '121 ,122,120,87,86,125,1 19,84'. La comparaison des valeurs de pixels s'effectue en symétrie centrale droite, la valeur du pixel B1 =121 avec la valeur du pixel B8=84 et ainsi de suite. La ligne binaire résultante codée en hexadécimal (hash de la ligne ï) est une ligne de quatre valeurs '1 ,1 ,0,1 '. L'image résultante est une image de taille (8x4). Une telle approche diminue le nombre d'opérations de comparaison par deux, ce qui permet d'obtenir une signature plus compacte, mais cela rend le procédé moins robuste aux transformations, en particulier du fait de la perte d'information car il y a de fait moins de régions dans les images qui sont comparées.
Ainsi, il n'existe pas dans l'art antérieur de solution qui permette de construire une signature globale représentative d'une image qui : - offre une faible complexité algorithmique afin de calculer très rapidement avec peu de ressources machines une signature d'une image ;
- soit assez compacte pour permettre de rechercher rapidement dans une base de référence ; et - soit robuste aux transformations les plus usuelles rencontrées sur internet.
La présente invention répond à ce besoin.
Résumé de l'invention La solution décrite vise à résoudre le problème de la recherche de contenu visuel dans un contexte de flux de données visuelles.
Pour atteindre cet objectif, un objet de la présente invention est de proposer un dispositif et un procédé de détection de copie basé sur un nouveau mode d'obtention de la signature globale d'une image. Avantageusement, le procédé de l'invention qui permet de générer une signature d'image est rapide, et permet de calculer une signature dans un délai de l'ordre de ou inférieur à 5 ms pour une machine de ressources usuelles, telle par exemple une machine opérant dans une plage de fréquence de 3 GHz. Toujours avantageusement, la signature obtenue par le procédé de l'invention est très compacte, inférieure à 100 octets, permettant ainsi une recherche rapide et de manière exhaustive dans une grande base de données, le contenu de la base dépendant de la taille mémoire disponible et pouvant par exemple contenir de l'ordre de 107 à 108 images.
Avantageusement, la signature d'image obtenue par le procédé de l'invention peut être quantifié au moyen d'une méthode de K-médiane afin d'être indexé dans une structure d'index inversé permettant d'accélérer la recherche. Un procédé semblable, quantifiant une signature GIST au moyen de K-moyenne est décrit dans M. Douze, H. Jégou, H. Sandhawalia, L. Amsaleg, and C. Schmid, "Evaluation of gist descriptors for web-scale image search," in International Conférence on Image and Video Retrieval. New York, NY, USA: ACM, 2009, pp. 19:1 -19:8. La méthode de K-médiane est identique à la méthode K-moyenne (bien connue de l'homme du métier) en remplaçant le calcul de moyenne par un calcul de médiane. De façon plus générale, la signature d'image obtenue par le procédé de l'invention est robuste aux transformations d'image couramment rencontrées sur internet.
La présente invention trouvera avantage dans toute application où il ressort le problème de devoir rechercher des copies illicites d'un contenu protégé, de vouloir mesurer la popularité d'un contenu diffusé, de vouloir localiser un programme au sein d'une vidéo ou encore pour des applications de veille sur les média sociaux.
Pour obtenir les résultats recherchés, un procédé et un dispositif pour détecter des copies ou quasi-copies d'images sont proposés. Le procédé consiste à recevoir une image initiale, convertir l'image initiale en niveaux de gris, redimensionner l'image grisée en une image réduite ayant une pluralité de lignes et un nombre pair de colonnes, calculer une signature globale de l'image réduite, et déterminer si l'image initiale est une copie ou quasi-copie d'image selon le résultat d'une comparaison entre la signature globale de l'image réduite et des signatures d'images de référence. L'étape de calcul de la signature globale de l'image comprend les étapes de calculer une signature de ligne pour chaque ligne de l'image réduite, le calcul étant basé sur une comparaison de valeurs, obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne, et concaténer les signatures de ligne pour obtenir une signature globale de l'image.
Dans un mode de réalisation, l'étape de calcul d'une signature de ligne comprend les étapes de définir une pluralité de régions de pixels symétriques pour l'image réduite, et sur chaque ligne, sélectionner des groupes de sous-ensembles de pixels symétriques (Pxi,Pyj), chaque sous-ensemble étant défini de manière à ce que si un pixel appartient à un groupe Pxi son symétrique sur la ligne appartient au groupe Pyj.
Avantageusement, les valeurs statistiques sont une moyenne sur les sous-ensembles de pixels et la signature de ligne est une valeur attribuée à un élément d'une fonction de hash en fonction de la valeur de statistique.
Dans une variante d'implémentation, la valeur attribuée à un élément d'une fonction de hash est égale à '1 ' si la moyenne obtenue pour un sous-ensemble Pxi est plus grande que celle obtenue pour le sous-ensemble Pyj symétrique.
Avantageusement, la signature globale est une fonction de hash globale obtenue par concaténation des fonctions de hash calculées pour chaque ligne. Dans une variante, l'étape de calcul de la signature globale comprend l'ajout d'une statistique globale.
Selon un mode de réalisation, le redimensionnement de l'image grisée consiste à réduire l'image initiale à une première image de Ή' lignes par 'W+K' colonnes où W est pair et 'K' impair, puis à ramener à une deuxième image de Ή' lignes par 'W colonnes avec 'W pair. Selon un autre mode de réalisation, l'étape de calcul de la signature globale consiste à calculer une signature globale pour l'image initiale et pour la transformation de l'image en coordonnées polaires.
Avantageusement, le procédé peut comprendre de plus après l'étape de redimensionnement de l'image, une étape de détermination d'un centre stable de l'image en fonction du contenu.
Dans une variante, le procédé peut comprendre une étape de quantification de la signature au moyen de K-médianes. L'étape de comparaison est alors implémentée au moyen d'une structure d'index inversé.
L'invention couvre aussi un dispositif pour générer des signatures d'images de référence qui permet de recevoir une image de référence initiale, de la convertir en niveaux de gris, de redimensionner l'image de référence grisée en une image de référence réduite ayant une pluralité de lignes et un nombre pair de colonnes, et de calculer une signature de ligne pour chaque ligne de l'image de référence réduite où le calcul est basé sur une comparaison de valeurs obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne. Les signatures de ligne obtenues sont concaténées pour obtenir une signature d'image de référence.
L'invention peut opérer sous la forme d'un produit programme d'ordinateur qui comprend des instructions de code permettant d'effectuer les étapes des procédés revendiqués lorsque le programme est exécuté sur un ordinateur.
Description des figures Différents aspects et avantages de l'invention vont apparaître en appui de la description d'un mode préféré d'implémentation de l'invention mais non limitatif, avec référence aux figures ci-dessous :
La figure 1 illustre les blocs fonctionnels d'un dispositif connu de détection de copies ;
Les figures 2a et 2b illustrent deux exemples de construction d'une signature de ligne selon des procédés connus ;
La figure 3 illustre les étapes du procédé pour obtenir une signature d'une image selon un mode de réalisation de l'invention ; La figure 4 illustre les blocs fonctionnels du dispositif de l'invention dans un mode de réalisation.
Description détaillée de l'invention
Référence est faite à la figure 3 qui montre les étapes principales du procédé de l'invention pour calculer une signature globale d'une image c'est-à-dire la construction d'un descripteur global de l'image. Le procédé de l'invention peut s'implémenter à partir d'éléments matériel et logiciel. Les éléments logiciel peuvent être disponibles en tant que produit programme d'ordinateur sur un support lisible par ordinateur, support qui peut être électronique, magnétique, optique ou électromagnétique. Les éléments matériels peuvent être disponibles tous ou en partie en tant que circuits intégrés dédiées (ASIC) ou circuits intégrés dédiées
reprogrammables (FPGA) ou en tant que processeur de signal numérique DSP ou en tant que processeur graphique GPU.
Le procédé (300) est mis en œuvre au sein d'un dispositif d'extraction de caractéristiques visuelles tel celui représenté en figure 1 (104-1 , 104-2). Le procédé est appliqué en mode déconnecté hors ligne lors de la constitution d'une base d'images de référence, et opéré en mode continu en ligne pour analyser des images dans des flux de données visuelles.
Le procédé débute (300) soit à réception d'une requête pour constituer une image de référence, soit à réception d'une requête pour détecter qu'une image d'un flux de données visuelles est la copie ou quasi-copie d'une image de référence.
Dans la suite de la description des étapes 302 à 310, le terme « image » désigne une image issue d'une image initiale dans un flux de données visuelles, ou une image issue d'une image initiale destinée à être une image de référence.
Dans une première étape (302), l'image initiale est convertie en niveaux de gris. Il n'est pas détaillé ici cette opération que l'homme du métier peut appliquer par des techniques conventionnelles. Une variante consiste par exemple à calculer la luminance réelle. Une autre alternative peut être de calculer la fonction « (R+G+B)/3 », tel que cela est proposé notamment dans la librairie OpenCV® par la fonction cvCvtColor().
Avantageusement, cette étape qui fait une moyenne des plans de chrominance introduit une robustesse aux transformations colorimétriques. Dans une seconde étape (304), le procédé permet de réduire la taille de l'image « grise ». L'image est d'abord réduite à une première image de taille ayant Ή' lignes par 'W+K' colonnes où W est pair (W=2w) et K est impair (K=2k+1 ) ou nul (K=0). Dans un mode de réalisation particulier, seul un sous-ensemble pair de colonnes est retenu pour le redimensionnement, par exemple en ne retenant pas la colonne centrale de l'image et si nécessaire pas les colonnes aux extrêmes de l'image, afin de conserver une deuxième image ayant Ή' lignes de pixels par 'W colonnes de pixels où 'W est pair, et ainsi obtenir au final un descripteur pouvant être invariant à l'invariance droite-gauche. Le redimensionnement de l'image peut être fait en appliquant une technique d'interpolation connue, une approche possible étant de prendre la moyenne des pixels voisins. Alternativement, le redimensionnement de l'image peut se faire par une interpolation linéaire, bi-linéaire, bi-cubique ou spline par exemple.
Avantageusement, cette étape permet d'éliminer des détails considérés peu intéressants pour caractériser l'image de référence, tels des détails en filigrane « watermarks » ou encore du texte. L'étape de redimensionnement améliore également la robustesse du procédé aux transformations de ré-échantillonnage, en conservant ou non le ratio d'origine.
Dans une étape suivante (306), le procédé opère sur chaque ligne de l'image réduite afin de définir une pluralité de régions de pixels symétriques. Le procédé permet pour chaque ligne, de sélectionner des groupes de sous-ensembles de pixels symétriques (Px',Py j), chaque sous- ensemble étant défini de manière à ce que si un pixel appartient à un groupe Ρχ' , son symétrique sur la ligne appartient au groupe Py j.
En reprenant l'exemple de la ligne sur la figure 2b, la table 1 ci- dessous illustre la sélection de 'J=12' sous-ensembles de pixels symétriques (Px',Py j) pour une ligne :
Groupes Px' Groupes Py J
121 84
122 1 19
120 125
87 86
121 ,122 1 19,84
120, 87 86,125
121 , 120 125, 84
121 , 87 86, 84
121 ,120, 87 86, 125, 84
121 , 86, 1 19 122, 87, 84
121 ,122, 86, 125 120, 87, 1 19, 84
121 , 87, 86 87, 86, 84 Table 1
Il est à noter dans cet exemple que les quatre premiers sous- ensembles (121 ,122, 120, 87) du groupe Ρχ' sont des singletons, identiques à la fonction de hash perceptive basique décrite plus haut pour la version symétrique.
Avantageusement, les sous-ensembles qui sont définis ne sont pas nécessairement « totalement exclusifs ». Ainsi sur la dernière ligne de la table 1 , les pixels (87, 86) correspondant aux blocs du milieu de la ligne Ί', appartiennent à la fois au sous-ensemble (121 ,87,86) du groupe des pixels Px' et au sous-ensemble (87,86,84) du groupe des pixels Py j.
Dans une étape suivante (308), le procédé permet de calculer une statistique pour chaque sous-ensemble de pixels et d'attribuer une valeur à l'élément de la fonction de hash correspondante en fonction de la valeur de statistique obtenue.
Dans un mode de réalisation particulier, et tel qu'illustré sur la table 2 ci-dessous qui est repris de l'exemple de la table 1 , la statistique consiste à calculer pour chaque sous-ensemble de pixels, une moyenne i' pour les pixels du groupe Px' et 'μ pour les pixels du groupe Py j, puis à attribuer la valeur '1 ' à l'élément de hash si la moyenne obtenue pour le sous-ensemble Px j est plus grande que celle pour le sous-ensemble Py j ou sinon la valeur Ό'.
Figure imgf000017_0001
120.5 104.5 1
104 85 1
109.33 98.33 1
108.67 97.67 1
1 13.5 102.5 1
98 85.67 1
Table 2
Après avoir calculé pour chaque ligne de l'image, la valeur de hash pour chaque sous-ensemble de pixels, le procédé permet dans une étape suivante (310) de calculer une valeur de hash globale pour l'image réduite. La fonction de hash globale est la concaténation des fonctions de hash calculées pour chaque ligne. Dans l'exemple précédent, la fonction de hash globale est de taille 'HxJ'. Les valeurs de hash étant binaires (elles prennent des valeur 0 ou 1 uniquement), les 'HxJ' dimensions de la fonction de hash globale peuvent être codées sur au plus E[HxJ / 8] +1 octets, où E[x] est la partie entière de x.
Avantageusement en définissant des groupes symétriques supplémentaires, la signature devient plus robuste à d'autres
transformations, telles que des incrustations de texte ou d'images, puisque les valeurs comparées sont moyennées (lissées) en plusieurs endroits de l'image.
Dans un mode de réalisation alternatif, il est possible pour le calcul de la signature de l'image d'ajouter (à la fonction de hash globale) le nombre de fois où la moyenne de deux éléments d'un couple (Ρχ', Py j) est identique (nombre d'égalités).
Dans un mode de réalisation alternatif, il est possible pour le calcul de la signature globale de l'image d'ajouter (à la fonction de hash globale) une ou plusieurs statistiques globales. Par exemple, le calcul peut prendre en compte le nombre de fois où la moyenne de deux éléments d'un couple est identique (nombre d'égalités) ainsi qu'une statistique globale comme l'intensité moyenne de l'image. Dans cette variante, la taille de la signature globale est alors de
« HxJ+ G + 1 » , où 'G' le nombre de statistiques globales ajoutées, c'est- à-dire l'intensité moyenne de l'image, est égal à 1 .
Si 'G' statistiques globales sont ajoutées - avec par exemple 'G=3' pour la moyenne, la variance et la médiane de l'image - plus le nombre d'égalités, alors la taille de la fonction de hash globale est égale à
« HxJ+G+1 = HJ+4 ».
Si le nombre d'égalités est codé par exemple sur 2 octets et chaque statistique globale est codée sur 2 octets, alors la signature de taille « HxJ+G+1 » peut être codée sur (E[HxJ/8] + 1 + 2xG + 2) octets. Dans un mode de réalisation différent, le procédé 300 peut être appliqué sur l'image originale en niveau de gris et sur sa transformation en coordonnées polaires. Dans cette implémentation, l'homme du métier notera que le centre de symétrie sur une ligne peut être arbitrairement fixé pour toutes les images. Dans une variante de réalisation, le centre de symétrie peut être déterminé automatiquement en fonction du contenu de l'image de manière à obtenir un centre plus stable. Une manière de faire peut être par exemple de calculer le barycentre des pixels (moyenne des positions spatiales pondérées par la valeur de niveau de gris des pixels) pour une succession de redimensionnements de taille inférieure à l'image originale, puis de choisir le centre de symétrie quand le barycentre reste localisé dans un voisinage spatial stable. Alternativement, le barycentre des pixels peut être calculé éventuellement après un filtrage numérique pouvant par exemple effectuer une conversion de l'image en niveau de gris.
Le procédé 300 de génération de signature pour une image, peut être suivi d'un procédé de comparaison quand il est appliqué en mode continu en ligne. Tel que précédemment décrit, la comparaison opérée au sein d'un module de comparaison de la chaîne de traitement (module 1 10 de la figure 1 ), permet de comparer la signature globale obtenue en ligne avec des signatures de la base de référence qui ont été calculées hors ligne.
Dans une variante, le procédé peut comprendre une étape de quantification de la signature au moyen de K-médianes. L'étape de comparaison est alors implémentée au moyen d'une structure d'index inversé. Une telle méthode d'accélération du temps de recherche par quantification par K-moyenne est décrite pour le descripteur GIST dans M. Douze, H. Jégou, H. Sandhawalia, L. Amsaleg, and C. Schmid, "Evaluation of gist descriptors for web-scale image search," in
International Conférence on Image and Video Retrieval. New York, NY, USA: ACM, 2009, pp. 19:1 -19:8. De manière préférentielle, la quantification est réalisée au moyen d'un algorithme de K-médiane, identique à l'algorithme des K-moyennes en remplaçant la moyenne par une médiane.
Dans un mode de réalisation, la comparaison s'effectue par le calcul d'une distance entre la signature globale et des signatures d'images issues de la base de référence. Dans une variante, la distance est composite et correspond à la moyenne des distances 'dH' et 'dME' où dH est la distance de Hamming sur les fonctions de hash globales, et 'dME' une distance sur les statistiques globales et le nombre d'égalité. Par exemple, dME peut être la distance de Manhatan ou la distance euclidienne.
Une implémentation préférentielle du mode de réalisation précédent est celle où la taille de l'image réduite est égale à 'H=W=1 6', le nombre de groupes de sous-ensembles de pixels est égal à 'J=1 6', la distance sur les fonctions de hash globales 'dH' est prise comme étant la distance de Hamming et la distance sur les moyennes de niveaux de gris 'dME' est la distance de Manhattan L1 . Dans cette configuration, les 1 6 groupes pour une ligne sont alors établis selon la table 3 suivante, où {pk, k= 1 , ...1 6} sont les pixels successifs d'une ligne de l'image réduite ordonnés de gauche à droite, pi étant le pixel le plus à gauche et pi6 le pixel le plus à droite :
Figure imgf000021_0001
Table 3
Le procédé de l'invention a été évalué sur le benchmark proposé par B. Thomee, M. J. Huiskes, E. M. Bakker, et M. J. Lew "An évaluation of content-based duplicate image détection methods for web search", ICME 201 3. Il consiste en 6000 images qui ont été transformées de 60 manières différentes, les transformations ayant été choisies après une enquête auprès de 45 personnes familières avec le traitement d'image qui ont reporté les transformations les plus courantes qu'elles rencontraient sur le web. Les 360 000 images résultantes ont été fusionnées avec deux millions d'images afin de constituer la base de référence. Les 6000 images originales sont utilisées en requête et la performance est mesurée en « mean Average Précision » (mAP) , mesure bien connue de l'homme du métier.
Le procédé a été comparé à la méthode 'GIST' qui obtient les meilleurs résultats sur le benchmark et à 'TOP-SURF' qui est une méthode de performance reposant sur l'utilisation de descripteurs locaux.
Une référence de la méthode 'GIST' est : A. Oliva and A. Torralba, "Modeling the shape of the scène: A holistic représentation of the spatial envelope," International Journal of Computer Vision, vol. 42, no. 3, pp. 145-1 75, 2001 .
Unejéférence de la méthode 'TOP SURF' est : B. Thomee, E. M. Bakker, and M. S. Lew, "Top-surf: a visual words toolkit." in ACM
Multimedia. ACM, 2010, pp. 1473-1476.
Les résultats d'expérimentation ont été reportés à la fois pour la précision (mAP) et le temps de calcul (en secondes). Pour le temps de calcul, ce dernier est séparé entre le temps de calcul de la signature ('description' dans la table 4 ci-dessous) et le temps de recherche dans la base de référence ('comparaison' dans la table 4 ci-dessous).
De plus, le procédé a été combiné avec une méthode
d'accélération du temps de recherche par quantification par K-médianne, tel que décrit précédemment. Méthode Temps de calcul (secondes) mAP
description comparaison
TOP SURF 0.340 2.2 93.7%
GIST 0.05 9 93.2%
Le procédé de 0.005 0.120 99.1 % l'invention
Le procédé de 0.005 0.0015 96.7% l'invention
quantifié
Table 4
Dans ses deux versions, le procédé proposé obtient des performances supérieures aux méthodes de l'état de l'art, et est surtout beaucoup plus rapide lors de l'étape de comparaison.
Ainsi les avantages du procédé de l'invention sont entre autres qu'une signature est très rapide à calculer, moins de 5ms en moyenne avec 1 seul cœur de processeur Intel(R) Core(TM) Î7-4800MQ CPU @ 2.70GHz pour une image de taille VGA. De plus, la signature est assez compacte pour permettre une recherche sur plusieurs millions d'images en moins de 100ms, toujours avec un seul cœur de processeur Intel(R) Core(TM) Î7-4800MQ CPU @ 2.70GHz. Enfin, le procédé permet que la signature soit robuste aux transformations les plus usuelles trouvées sur le web.
La figure 4 illustre les blocs fonctionnels du dispositif (400) de l'invention pour détecter des copies ou quasi-copies d'images dans un mode de réalisation. Le dispositif comprend des modules aptes à opérer les étapes du procédé décrit en référence à la figure 3. Le dispositif (400) comprend un module récepteur (402) apte à recevoir une image initiale. L'image initiale est transmise à un module de conversion (404) apte à convertir l'image initiale en niveaux de gris. Une fois grisée, l'image grisée est transmise à un module de
redimensionnement (406) apte à redimensionner l'image grisée en une image réduite, l'image réduite ayant une pluralité de lignes et un nombre pair de colonnes. L'image réduite est ensuite transmise à un module de calcul (408) apte à calculer une signature globale de l'image réduite. Avantageusement, le module de calcul comprend un premier composant (409) permettant de calculer une signature de ligne pour chaque ligne de l'image réduite, et un deuxième composant (410) permettant de concaténer les signatures de ligne pour obtenir une signature globale. D'une manière générale, le calcul est basé sur une comparaison de valeurs obtenues par statistique sur des sous-ensembles de pixels symétriques de chaque ligne. Le dispositif comprend de plus un module de comparaison (412) apte à comparer la signature globale de l'image réduite obtenue à des signatures d'images de référence (430) afin de déterminer si l'image initiale est une copie ou quasi-copie d'image selon le résultat de la comparaison. Les signatures d'images de référence (430) sont obtenues par un dispositif (420) opérant hors ligne et comprenant un module récepteur (422) apte à recevoir une image de référence initiale, un module de conversion (424) apte à convertir l'image de référence initiale en niveaux de gris, un module de redimensionnement (426) apte à redimensionner l'image de référence grisée en une image de référence réduite ayant une pluralité de lignes et un nombre pair de colonnes, un module de calcul (428) apte à calculer une signature de ligne pour chaque ligne de l'image de référence réduite, et où le calcul est basé sur une comparaison de valeurs obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne, et un module (430) pour concaténer les signatures de ligne et obtenir une signature d'image de référence.
Les modules du dispositif de l'invention peuvent être des éléments matériels et/ou logiciels. Les éléments logiciels peuvent être disponibles en tant que produit programme d'ordinateur sur un support lisible par ordinateur, support qui peut être électronique, magnétique, optique ou électromagnétique. Les éléments matériels peuvent être disponibles tous ou en partie en tant que circuits intégrés dédiées (ASIC) ou circuits intégrés dédiées reprogrammables (FPGA) ou en tant que processeur de signal numérique DSP ou en tant que processeur graphique GPU.

Claims

Revendications
Un procédé pour détecter des copies ou quasi-copies d'images, comprenant les étapes de :
- recevoir une image initiale ;
- convertir l'image initiale en niveaux de gris ;
- redimensionner l'image grisée en une image réduite ayant une pluralité de lignes et un nombre pair de colonnes ;
- calculer une signature globale de l'image réduite ; et
- déterminer si l'image initiale est une copie ou quasi-copie
d'image selon le résultat d'une comparaison entre la signature globale de l'image réduite et des signatures d'images de référence ;
le procédé étant caractérisé en ce que l'étape de calcul d'une signature globale comprend les étapes de :
- calculer une signature de ligne pour chaque ligne de l'image réduite, ledit calcul étant basé sur une comparaison de valeurs, obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne ; et
- concaténer les signatures de ligne pour obtenir une signature globale.
Le procédé selon la revendication 1 dans lequel l'étape de calcul d'une signature de ligne comprend les étapes de :
- définir une pluralité de régions de pixels symétriques pour l'image réduite ; et
- sur chaque ligne, sélectionner des groupes de sous-ensembles de pixels symétriques (Px',Py j), chaque sous-ensemble étant défini de manière à ce que si un pixel appartient à un groupe Px' son symétrique sur la ligne appartient au groupe Py j.
3. Le procédé selon la revendication 1 ou 2 dans lequel les valeurs
statistiques sont une moyenne sur les sous-ensembles de pixels et la signature de ligne est une valeur attribuée à un élément d'une fonction de hash en fonction de la valeur de statistique.
4. Le procédé selon la revendication 3 dans lequel la valeur attribuée à un élément d'une fonction de hash est égale à Ί ' si la moyenne obtenue pour un sous-ensemble Px' est plus grande que celle obtenue pour le sous-ensemble Py j symétrique.
5. Le procédé selon les revendications 3 ou 4 dans lequel la signature globale est une fonction de hash globale obtenue par concaténation des fonctions de hash calculées pour chaque ligne.
6. Le procédé selon l'une quelconque des revendications 1 à 5 dans lequel l'étape de redimensionnement de l'image grisée consiste à réduire l'image initiale à une première image de Ή' lignes par 'W+K' colonnes où W est pair et 'K' impair, puis à ramener à une deuxième image de Ή' lignes par W colonnes avec W pair.
7. Le procédé selon l'une quelconque des revendications 1 à 6 dans lequel l'étape de calcul de la signature globale comprend l'ajout d'une ou plusieurs statistiques globales de l'image. 8. Le procédé selon l'une quelconque des revendications 1 à 7 dans lequel l'étape de calcul de la signature globale consiste à calculer une signature globale pour l'image initiale et pour la transformation de l'image en coordonnées polaires.
9. Le procédé selon l'une quelconque des revendications 1 à 8
comprenant de plus après l'étape de redimensionnement de l'image, une étape de détermination d'un centre stable de l'image en fonction du contenu.
10. Le procédé selon l'une quelconque des revendications 1 à 9
comprenant de plus une étape de quantification de la signature au moyen de K-médianes et où l'étape de comparaison est implémentée au moyen d'une structure d'index inversé.
1 1 . Un produit programme d'ordinateur, ledit programme d'ordinateur comprenant des instructions de code permettant d'effectuer les étapes du procédé selon l'une quelconque des revendications 1 à 10, lorsque ledit programme est exécuté sur un ordinateur.
12. Un dispositif pour détecter des copies ou quasi-copies d'images, comprenant :
- un module récepteur (402) apte à recevoir une image initiale ;
- un module de conversion (404) apte à convertir l'image initiale en niveaux de gris ;
- un module de redimensionnement (406) apte à redimensionner l'image grisée en une image réduite ayant une pluralité de lignes et un nombre pair de colonnes ;
- un module de calcul (408) apte à calculer une signature globale de l'image réduite ; et - un module de comparaison (412) apte à comparer la signature globale de l'image réduite à des signatures d'images de référence pour déterminer si l'image initiale est une copie ou quasi-copie d'image selon le résultat de la comparaison ;
le dispositif étant caractérisé en ce que le module de calcul (408) comprend :
- un composant (409) pour calculer une signature de ligne pour chaque ligne de l'image réduite, le calcul étant basé sur une comparaison de valeurs obtenues par statistique sur des sous- ensembles de pixels symétriques de chaque ligne ; et
- un composant (410) pour concaténer les signatures de ligne pour obtenir une signature globale.
13. Le dispositif selon la revendication 12 dans lequel le composant pour calculer une signature de ligne permet :
- de définir une pluralité de régions de pixels symétriques pour
l'image réduite ; et
- pour chaque ligne, de sélectionner des groupes de sous- ensembles de pixels symétriques (Px',Py j), chaque sous-ensemble étant défini de manière à ce que si un pixel appartient à un groupe
Px1 son symétrique sur la ligne appartient au groupe Py j.
14. Le dispositif selon la revendication 12 ou 13 dans lequel les valeurs statistiques sont une moyenne sur les sous-ensembles de pixels et la signature de ligne est une valeur attribuée à un élément d'une fonction de hash en fonction de la valeur de statistique.
15. Le dispositif selon la revendication 14 dans lequel la valeur attribuée à un élément d'une fonction de hash est égale à Ί ' si la moyenne obtenue pour un sous-ensemble Px' est plus grande que celle obtenue pour le sous-ensemble Py j symétrique.
16. Le dispositif selon les revendications 14 ou 15 dans lequel la
signature globale est une fonction de hash globale obtenue par concaténation des fonctions de hash calculées pour chaque ligne.
17. Le dispositif selon l'une quelconque des revendications 12 à 1 6 dans lequel le module de redimensionnement de l'image grisée permet de réduire l'image initiale à une première image de Ή' lignes par 'W+K' colonnes où 'W est pair et 'K' impair, puis de ramener la première image à une deuxième image de Ή' lignes par W colonnes avec W pair.
18. Le dispositif selon l'une quelconque des revendications 12 à 17 dans lequel le module de calcul de la signature globale permet de prendre en compte l'ajout d'une ou plusieurs statistiques globales de l'image.
19. Le dispositif selon l'une quelconque des revendications 12 à 18 dans lequel le module de calcul de la signature globale permet de calculer une signature globale pour l'image initiale et pour la transformation de l'image initiale en coordonnées polaires.
20. Le dispositif selon l'une quelconque des revendications 12 à 19
comprenant un module pour déterminer un centre stable de l'image redimensionnée en fonction du contenu.
21 . Le dispositif selon l'une quelconque des revendications 12 à 20
comprenant de plus un module apte à quantifier la signature au moyen de K-médianes et où le module de comparaison est implémenté au moyen d'une structure d'index inversé.
22. Un procédé pour générer une signature d'image de référence,
comprenant les étapes de :
- recevoir une image de référence initiale ;
- convertir l'image de référence initiale en niveaux de gris ;
- redimensionner l'image de référence grisée en une image de
référence réduite ayant une pluralité de lignes et un nombre pair de colonnes ;
- calculer une signature de ligne pour chaque ligne de l'image de référence réduite, ledit calcul étant basé sur une comparaison de valeurs, obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne ; et
- concaténer les signatures de ligne pour obtenir une signature d'image de référence.
23. Le procédé selon la revendication 22 comprenant de plus des étapes selon l'une quelconque des revendications 2 à 10 pour une image de référence.
24. Un dispositif (420) pour générer une signature d'image de référence, comprenant :
- un module récepteur (422) apte à recevoir une image de référence initiale ;
- un module de conversion (424) apte à convertir l'image de
référence initiale en niveaux de gris ; - un module de redimensionnement (426) apte à redimensionner l'image de référence grisée en une image de référence réduite ayant une pluralité de lignes et un nombre pair de colonnes ;
- un module de calcul (428) apte à calculer une signature de ligne pour chaque ligne de l'image de référence réduite, ledit calcul étant basé sur une comparaison de valeurs, obtenues par statistique sur des sous-ensembles de pixels symétriques sur chaque ligne ; et
- un module pour concaténer (430) les signatures de ligne et obtenir une signature d'image de référence.
25. Le dispositif selon l'une quelconque des revendications 12 à 21 dans lequel les signatures d'images de référence sont obtenues par un dispositif (420) selon la revendication 24.
26. Un produit programme d'ordinateur, ledit programme d'ordinateur comprenant des instructions de code permettant d'effectuer les étapes du procédé selon les revendications 22 ou 23, lorsque ledit
programme est exécuté sur un ordinateur.
PCT/EP2015/078822 2015-10-12 2015-12-07 Procede et dispositif de detection de copies dans un flux de donnees visuelles WO2017063722A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/767,629 US20180293461A1 (en) 2015-10-12 2015-12-07 Method and device for detecting copies in a stream of visual data
JP2018519029A JP2018532198A (ja) 2015-10-12 2015-12-07 視覚データのストリーム中のコピーを検出するための方法およびデバイス
US15/234,671 US20170103285A1 (en) 2015-10-12 2016-08-11 Method and device for detecting copies in a stream of visual data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1559680 2015-10-12
FR1559680 2015-10-12

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/234,671 Continuation US20170103285A1 (en) 2015-10-12 2016-08-11 Method and device for detecting copies in a stream of visual data

Publications (1)

Publication Number Publication Date
WO2017063722A1 true WO2017063722A1 (fr) 2017-04-20

Family

ID=54979639

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2015/078822 WO2017063722A1 (fr) 2015-10-12 2015-12-07 Procede et dispositif de detection de copies dans un flux de donnees visuelles

Country Status (4)

Country Link
US (1) US20180293461A1 (fr)
JP (1) JP2018532198A (fr)
DE (1) DE202015106648U1 (fr)
WO (1) WO2017063722A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399897B (zh) * 2019-04-10 2021-11-02 北京百卓网络技术有限公司 图像识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009095616A1 (fr) 2008-01-30 2009-08-06 France Telecom Procede d'identification d'un document multimedia dans une base de reference, programme d'ordinateur, et dispositif d'identification correspondants

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4740706B2 (ja) * 2005-09-28 2011-08-03 ヤフー株式会社 不正画像検出装置、方法、プログラム
GB2454212B (en) * 2007-10-31 2012-08-08 Sony Corp Method and apparatus of searching for images
JP2010039533A (ja) * 2008-07-31 2010-02-18 Fujifilm Corp 画像ランキング装置、画像ランキング方法及びプログラム
JP5963609B2 (ja) * 2012-08-23 2016-08-03 キヤノン株式会社 画像処理装置、画像処理方法
US20150186751A1 (en) * 2013-12-31 2015-07-02 Stake Center Locating, Inc. Image duplication detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009095616A1 (fr) 2008-01-30 2009-08-06 France Telecom Procede d'identification d'un document multimedia dans une base de reference, programme d'ordinateur, et dispositif d'identification correspondants

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
A. OLIVA; A. TORRALBA: "Modeling the shape of the scene: A holistic représentation of the spatial envelope", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 42, no. 3, 2001, pages 145 - 175
B. THOMEE; E. M. BAKKER; M. S. LEW: "ACM Multimedia.", 2010, ACM, article "Top-surf: a visual words toolkit.", pages: 1473 - 1476
B. THOMEE; M. J. HUISKES; E. M. BAKKER; M. J. LEW: "An evaluation of content-based duplicate image détection methods for web search", ICME, 2013
B. THOMEE; M. J. HUISKES; E. M. BAKKER; M. J. LEW: "An évaluation of content-based duplicate image détection methods for web search", ICME, 2013
ETIENNE GADESKI ET AL: "Duplicate image detection in a stream of web visual data", 2015 13TH INTERNATIONAL WORKSHOP ON CONTENT-BASED MULTIMEDIA INDEXING (CBMI), 10 June 2015 (2015-06-10), pages 1 - 6, XP055276467, ISBN: 978-1-4673-6870-4, DOI: 10.1109/CBMI.2015.7153614 *
ETIENNE GADESKI ET AL: "Fast and robust duplicate image detection on the web", MULTIMEDIA TOOLS AND APPLICATIONS., 25 May 2016 (2016-05-25), US, XP055276883, ISSN: 1380-7501, DOI: 10.1007/s11042-016-3619-4 *
JOLY, A.; BUISSON, O.; FRELICOT, C.: "Content-Based Copy Retrieval Using Distortion-Based Probabilistic Similarity Search", MULTIMEDIA, IEEE TRANSACTIONS ON, vol. 9, no. 2, February 2007 (2007-02-01), pages 293,306
M. DOUZE; H. JÉGOU; H. SANDHAWALIA; L. AMSALEG; C. SCHMID: "International Conférence on Image and Video Retrieval.", 2009, ACM, article "Evaluation of gist descriptors for web-scale image search", pages: 19.1 - 19.8
ZAUNER, CHRISTOPH: "Implementation and Benchmarking of Perceptual Image Hash Functions", MASTER'S THESIS, 2010

Also Published As

Publication number Publication date
US20180293461A1 (en) 2018-10-11
JP2018532198A (ja) 2018-11-01
DE202015106648U1 (de) 2016-03-22

Similar Documents

Publication Publication Date Title
KR102262481B1 (ko) 비디오 컨텐츠 요약
CN108197265A (zh) 一种基于短视频搜索完整视频的方法及系统
FR2907239A1 (fr) Procede de recherche et de reconnaissance rapides d'une image numerique representative d'au moins un motif graphique dans une banque d'images numeriques
WO2010116093A1 (fr) Determination de descripteur dans un contenu multimedia
EP2839410A1 (fr) Procede de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
EP2227755B1 (fr) Procede d'analyse d'un contenu multimedia, produit programme d'ordinateur et dispositif d'analyse correspondants
FR2846828A1 (fr) Procede de tatouage d'un signal video, systeme et support de donnees pour la mise en oeuvre de ce procede, procede d'extraction du tatouage d'un signal video, systeme pour la mise en oeuvre de ce procede
WO2017063722A1 (fr) Procede et dispositif de detection de copies dans un flux de donnees visuelles
FR2893470A1 (fr) Procede et dispositif de creation d'une sequence video representative d'une sequence video numerique et procedes et dispositifs de transmission et reception de donnees video associes
US20170103285A1 (en) Method and device for detecting copies in a stream of visual data
EP1390905B1 (fr) Procede de detection de zones de texte dans une image video
CN114372169A (zh) 一种同源视频检索的方法、装置以及存储介质
Na et al. A Frame‐Based Video Signature Method for Very Quick Video Identification and Location
FR2934453A1 (fr) Procede et dispositif de masquage d'erreurs
FR3046894A1 (fr) Systemes et procedes pour formater et coder des donnees aeronautiques afin d'ameliorer leur transmissibilite
Valsesia et al. ToothPic: camera-based image retrieval on large scales
FR2929431A1 (fr) Procede et dispositif de classification des echantillons representatifs d'un signal numerique d'image
Fischinger et al. DF-Net: The digital forensics network for image forgery detection
EP2245555A1 (fr) Procede d'identification d'un document multimedia dans une base de reference, programme d'ordinateur, et dispositif d'identification correspondants
CN114627036B (zh) 多媒体资源的处理方法、装置、可读介质和电子设备
EP2082336B1 (fr) Procede de recherche et de reconnaissance rapides d'une image numerique representative d'au moins un motif graphique dans une banque d'images numeriques
FR2953312A1 (fr) Procede de generation d’un resultat d’une recherche effectuee au moyen d'un moteur de recherche
EP2149099A2 (fr) Dispositif et methode de traitement d'images pour determiner une signature d'un film
Lingam et al. Content relative thresholding technique for key frame extraction
Yadav et al. Towards Effective Image Forensics via A Novel Computationally Efficient Framework and A New Image Splice Dataset

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15813724

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15767629

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2018519029

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15813724

Country of ref document: EP

Kind code of ref document: A1