WO2021123209A1 - Method for segmenting an input image showing a document containing structured information - Google Patents

Method for segmenting an input image showing a document containing structured information Download PDF

Info

Publication number
WO2021123209A1
WO2021123209A1 PCT/EP2020/087081 EP2020087081W WO2021123209A1 WO 2021123209 A1 WO2021123209 A1 WO 2021123209A1 EP 2020087081 W EP2020087081 W EP 2020087081W WO 2021123209 A1 WO2021123209 A1 WO 2021123209A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
image
type
segmentation
reference image
Prior art date
Application number
PCT/EP2020/087081
Other languages
French (fr)
Inventor
Laurent ROSTAING
Alain Rouh
Catalin Codreanu
Original Assignee
Carrus Gaming
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Carrus Gaming filed Critical Carrus Gaming
Priority to EP20838959.3A priority Critical patent/EP4078435A1/en
Priority to CA3161385A priority patent/CA3161385A1/en
Publication of WO2021123209A1 publication Critical patent/WO2021123209A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Definitions

  • TITLE Process for segmenting an input image representing a document containing structured information
  • the present invention relates to the field of the identification of documents comprising structured information, for example in the form of check boxes. More particularly it relates to a method of identification (classification) and segmentation of such a document, for example a game bulletin, in an image taken in an uncontrolled environment.
  • document comprising structured information will be understood to mean an element, generally on paper medium having a predefined shape and patterns, comprising indications and a set of areas to be completed, for example boxes to be checked.
  • a document may for example be a game slip (lottery for example), a form, or a multiple choice questionnaire.
  • This method thus makes it possible to determine a zone of presence and a segmentation of the object, resulting from the analysis of the movement between the images.
  • the performance of the point of interest extraction of this approach is limited by the absence of a reference image.
  • the last document added can cause a movement of documents located below, some parts of which can then be incorrectly detected, or that may prevent correct detection of the last added document.
  • this method has the major drawback that it does not make it possible to identify the document model.
  • Another method allows the identification of at least one sign of a deformed document based on the segmentation of candidate sign regions, then the joint identification of these candidate sign regions and a deformation model compared to previously stored document models.
  • this method has certain drawbacks, first of all, it does not allow classification and segmentation of an image, its purpose is simply to decode a given document from a document template.
  • the method described in this patent requires manual delineation of the regions of the document comprising information in order to identify it.
  • this process does not include a segmentation step, it can be disturbed by the presence of other documents in the field of view of the acquisition system used.
  • the present invention relates to a method of segmenting an input image representing a document comprising structured information, the method comprising the implementation by processing means of the steps of:
  • C2 Determination of a document type by a classification method, said type being chosen from a set of possible types each associated with a reference image of the document type;
  • the method further comprises a step C1) of acquiring an image comprising the document comprising structured information to be segmented, carried out before step C2)
  • the documents can be game tickets with check boxes;
  • the classification method can be a deep neural network, and more particularly a convolutional type deep neural network;
  • the classification method can be a point of interest type method combined with a partitioning of points of interest;
  • - step C1) of acquiring an image comprising at least one document comprising structured information to be segmented further comprises a step of sub-sampling the image comprising the at least one document comprising structured information to be segmented;
  • step C3 the estimation of the parameters of the geometric transformation of step C3) is carried out by a deep neural network:
  • the deep neural network is selected from a plurality of neural networks each corresponding to a type of document, from the type of document determined in step C2);
  • the segmentation method comprises a preliminary step of increasing the training data from a single reference image for each type of document to be segmented, the step of increasing the training data comprising, for each type of documents, the implementation by means of processing one and / or the other of the stages of:
  • step C5 Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as we wish to have training examples for the type of document; a step of training a neural network implemented in step C2) and / or in step C3) on the basis of the augmented training data.
  • the invention relates to a method of increasing the training data for the training of a segmentation method according to the first aspect, from a single reference image for each type of document to be segmenting, the method comprising, for each type of document, the implementation by processing means of the steps of:
  • the method further comprises a step E1) of acquiring a reference image of the type of document produced before step E2).
  • the geometrical deformations can be deformations represented by affine functions
  • the method further comprises a masking step E3bis), making it possible to mask the areas of the reference image of the document type which may be different from one document of the same type to another by applying a texture randomly generated or selected in a list of textures, representing a variable pattern.
  • the invention further provides a computer program product comprising code instructions for executing a segmentation method according to the first aspect or a training data augmentation method according to the second aspect, when said program is executed on a computer; and a storage means readable by computer equipment on which a computer program product comprising code instructions for the execution of a segmentation method according to the first aspect or of a method of increasing the training data according to the second aspect, when said program is executed on a computer
  • FIG. 1 is a diagram of an architecture for the implementation of the method according to the invention.
  • FIG.2 shows the steps of one embodiment of the segmentation method according to the invention
  • FIG. 3 shows the steps of one embodiment of the data augmentation method according to the invention
  • Figure 4 illustrates examples of images generated by the data augmentation process.
  • FIG. 1 a segmentation server 1 (implementing the segmentation method), a learning server 3 (implementing the method of 'learning), a database 4 (used to store the reference images of the different types of documents) and a client 2 (having images of documents to be segmented), for example a terminal of a user such as a laptop or smartphone.
  • a segmentation server 1 implementing the segmentation method
  • a learning server 3 implementing the method of 'learning
  • a database 4 used to store the reference images of the different types of documents
  • client 2 having images of documents to be segmented
  • the segmentation server 1 can be grouped together with the client 2
  • the learning server can understand the database.
  • the equipment 1, 2, and 3 are typically remote computer equipment connected to a wide area network 10 such as the Internet network for the exchange of data; each comprises data processing means 11, 21, 31 respectively of processor type, and data storage means 12, 22, 32 such as a computer memory, for example a disk.
  • the client 2 further comprises image acquisition means 23 in order to obtain images of the documents to be segmented.
  • the database 4 can be either a server independent of the own data processing and storage means, or a file server (for example a NAS server), or a database management system integrated into the server. learning. This database stores reference images for each type of document to be segmented.
  • reference image we mean an image of good quality (without shooting defect) comprising only the document to scale (therefore not distorted), such an image can be for example a source file generated by a drawing software. computer assisted.
  • a reference image does not include any interpreted information relating to the document.
  • the reference image can in particular be an image representative of the document free of any filling of the areas to be filled by a user of the document.
  • a document represented in an image we mean in a broad sense the position, orientation and outline of that document in that image.
  • the shape includes the position of the center of gravity of this contour in the image of the document, and the orientation in the plane of this contour with respect to an orthonormal coordinate system of the image.
  • the same document can be imaged in various places with respect to the sensor, in different orientations (more or less rotated with respect to the orthonormal reference mark of the sensor, or even at 180 °), and / or deformed in the case of a flexible document. .
  • the idea of the proposed methods is to allow the use and training of segmentation methods requiring large amounts of data, such as neural networks, by being satisfied with one example per class (or type of document) when training and by applying an image augmentation chain sufficiently representative of the images of real documents and thus making it possible to have a sufficient volume of images for learning the segmentation method.
  • the segmentation process is divided into a classification sub-process followed by an estimation of the parameters of a geometric transformation which, when applied to the reference image of the document type determined by the classification, matches the shape of the reference image to the shape of the document in the image to be segmented. It thus makes it possible to segment documents from reference documents whose shape and contours are known in advance without having to train a segmentation method on examples where each pixel of the image has been annotated manually.
  • the separation of the steps of determining a segmentation and classification mask simplifies the addition of a new type of document to the model because it is then not necessary to re-train the entire model , only the portions that have changed.
  • model is understood to mean the parts of the neural network (s) which are involved in taking into account a new type of document.
  • neural networks make it possible to reduce the necessary calculation times compared to the state of the art, in fact unlike point-of-interest methods which do not necessarily require training such as neural networks, but have a computation time depending on the complexity of the input data, neural networks on the other hand make it possible to have a constant computation time whatever the input image during classification.
  • the decomposition, in some embodiments, of the classification and the determination of the segmentation mask into two different tasks also makes it possible to reduce the computation time compared to a method performing the classification and the determination. of the segmentation mask at the same time.
  • the method of determining the segmentation mask being specific to each type of document, and therefore less complex, and the classification being a simpler operation than the segmentation, the computational load induced by the use of these two methods is lower than that of a process performing both operations at the same time.
  • the segmentation method comprises a first step, C1, of acquiring an image to be processed comprising the document to be classified and segmented.
  • This image can be acquired either by shooting means 23, integrated into the client 2, or be acquired via a data exchange network 10 such as the Internet, this step can also include a sub-sampling of the image acquired in order to simplify its processing. If the document to be classified includes areas to be completed, one or more of these areas to be completed may have been completed by a user of the document before the acquisition step.
  • the image to be processed comprises the document to be classified and segmented, but also a region of space around the document to be classified.
  • the form of the document to be classified in the image is unknown.
  • the region of the space around the document to be classified can be very variable depending on the images. It can include a support for the document to be classified. If the document to be imaged is placed on one or more other documents during acquisition, it may include parts of this or these other documents if the stack of documents is not perfectly superimposed.
  • the region of space around the document may include a remote background depending on the environment of the document during the acquisition.
  • the image may in particular contain repeating patterns, as is the case for example for game slips, which include several boxes of identical shape.
  • the image to be processed is then transmitted to a classifier in order to determine the type of the document during a step C2, this classification can then be carried out by a standard classification algorithm, for example a convolutional neural network (CNN) such as VGG16, DenseNet, ResNet etc. or a point of interest matching method such as SIFT or SURF (“Speeded Up Robust Features ” ), as will be detailed below.
  • CNN convolutional neural network
  • SIFT Speeded Up Robust Features
  • the classification is carried out by a convolutional neural network.
  • a neural network was trained to determine the document type from an input image.
  • the acquired image is supplied as input to the neural network, and the neural network outputs the class of the document appearing on the image.
  • the class of the document can for example be chosen from the following list: ⁇ passport; ID card ; driver's license ; membership card ; Bank note ; game bulletin; form ; multiple choice test ⁇ .
  • the “membership card” can for example be a card issued to certain people in certain cases (for example, mutual insurance card, loyalty card, etc.).
  • the document class can also include a subclass. For example, in the case of a "game bulletin", the document class can also include a subclass relating to an identifier of the game concerned.
  • a regression method is used to estimate the parameters of a geometric transformation (for example an affine transformation) which, when applied to the reference image of the identified document type , allows you to find the shape of the document present in the image to be processed.
  • This regression can be done using a deep neural network.
  • a respective specific neural network is used for each type of document identified during the classification step.
  • a neural network was trained to determine, from an input image, the parameters of a geometric transformation to apply to the reference document associated with the document type to make it correspond to the input image.
  • the acquired image is supplied as input to the neural network, as well as the type of document determined in the previous step, and the neural network provides geometric transformation parameters as output.
  • the geometric transformation parameters can for example comprise the parameters of a translation of the center of gravity, of a planar rotation, and of a deformation.
  • a neural network of a type similar to that used for the classification step preferably a CNN such as VGG16, DenseNet, ResNet etc.
  • a dense connection layer intended to estimate the parameters of the geometric transformation.
  • the classification network is also possible to combine the classification network and the regression network by reusing the first layers of the classification network for the regression.
  • a single neural network is used which, from the input image, estimates both the type of document and the geometric parameters of the transformation.
  • the classification is carried out by a method by correspondence of points of interest.
  • a document model comprising a reference image of this type of document.
  • the document model also includes structured information relating to interpreted information (metadata) relating to the reference document. This interpreted information includes in particular the nature and position of points of interest in the reference document.
  • the document type classification step comprises, for each document type, image processing applied to the acquired image with a view to determining, on the acquired image, points of interest, then a setting step. in correspondence of these points of interest determined on the acquired image with the points of interest determined in the document model for the reference image.
  • the image is classified as corresponding to a document type for the type of document for which the mapping of the points of interest of the acquired image with those of the document model for that type of document gives the best results.
  • the point-of-interest correspondence method includes a partitioning of the points of interest into different regions each treated independently.
  • a neural network is then applied to determine the parameters of the geometric transformation, as described above in the context of the first example.
  • a classification step is implemented as described above in the first example, by means of a neural network.
  • the regression can then be made from the corners of the document to be segmented if it has a polygonal shape or from marking points added to all documents of the same type. It suffices then to find the parameters of a geometric transformation which makes it possible to correspond to a point or side of the document in the reference image of the document type, the point or equivalent side in the document to be segmented.
  • a segmentation mask is created by applying the geometric transformation calculated in the previous step to the outline of the document of the reference image in order to obtain the outline of the present document. in the image to be processed.
  • This segmentation mask thus makes it possible to determine the shape (position, orientation, outline) of the document in the acquired image. This makes it possible in particular to overcome the edges of documents placed under the document to be analyzed, visible in the acquired image.
  • a method of increasing training data is proposed. This method is implemented by the processing means 31 of the training server, in order to generate a number of training images sufficient to allow training of an efficient segmentation model. For this, a single good quality reference image can be used for each type of document to be identified, acquired during a step E1 either by shooting means 23, or as a source file that is the original document type reference image.
  • Random geometric deformations are then simulated in step E2, by applying a geometric transformation (for example an affine transformation), the parameters of which have been determined randomly, to the reference image, thus generating images that have undergone translations, symmetries, homothety, etc.
  • a geometric transformation for example an affine transformation
  • textures representing background images are created by generating an image with random patterns.
  • the images of documents having undergone deformations generated in the previous step are then overlaid on the background images during a step E3.
  • the background images provision can in particular be made to generate images comprising parts simulating portions of documents placed partially under the document to be analyzed, and protruding from below it. It is also possible to add a mask on certain parts of the image of the document if it includes one or more regions that may be different from one document of the same type to another and thus improve the generalization capacity of the trained model.
  • a texture can be generated in the same way as the background images and applied to the desired region of the image, the masking texture preferably being different from the background texture.
  • the masking texture preferably being different from the background texture.
  • textures showing a zone to be filled filled in manually or by computer by a character or a series of characters.
  • photometric degradations are applied, during a step E4, to the images generated in the previous step.
  • These degradations can be a blurring effect, a change in the brightness of the image or contrast, or alterations in the colors of the image.
  • digital noise for example Gaussian noise
  • Examples of documents produced by the data augmentation process are shown in Figure 4.
  • the documents have an outline, which can be polygonal, or include curved areas, as in the example shown of a heart shape.
  • the document may include a peripheral cartridge of a certain width and uniform color. As seen in Figure 4, the image may only include part of the document. This is particularly the case if a geometric transform has been applied to the reference document which moves part of the document out of frame.
  • the document to be analyzed is a structured document implies the development of neural networks which are specific to the processing of structured documents.
  • the documents to be analyzed essentially comprise generic zones for the type of document in question, and personalized zones (for example, a character string specific to the holder of a passport, or a plurality of boxes checked and not checked. of a game report), so that the neural network will be formed in a particular way during the learning process.
  • personalized zones for example, a character string specific to the holder of a passport, or a plurality of boxes checked and not checked. of a game report
  • the check boxes in the reference document form easily recognizable regular patterns.
  • a document to be analyzed will have some of these boxes checked, precisely in a different way between the ballots, or even checked in a different way between them, which makes it difficult to rely on the recognition of this regular pattern for classification.
  • the system which has just been described can be easily enriched to process a new type of document.
  • a reference image of the game slip of the new game is used.
  • a set of images is generated from the reference image, as described above.
  • the neural network determining the document type is then re-trained with these new training images.
  • a neural network for estimating the deformation parameters is created and trained with these training images.
  • the invention relates to a computer program product comprising code instructions for execution (in particular on the data processing means 11, 21 and 31 of the servers 1 and / or 3, and / or of the client 2) of a method of segmenting a document comprising information structured according to at least one reference associated with a type of document, the document being present in an input image, as well as of an augmentation method training data for training the segmentation process described from a single reference image for each type of document to be classified and segmented.
  • the invention also relates to storage means readable by computer equipment (a memory 12, 22 and 32 of the servers 1 and / or 3, and / or of the client 2) on which this computer program product is found. .

Abstract

The present invention relates to a method for segmenting an input message showing a document containing structured information, the method comprising steps of: C2) determining a type of document using a classifying method, said type being chosen from a set of possible types each associated with one reference image of the type of document, the reference image being an image solely containing the document; C3) estimating the parameters of a geometric transformation to be applied to the reference image of the type of document determined in step C2) in order to obtain the document such as shown in the input image; C4) determining a segmentation mask on the basis of the geometric-transformation parameters estimated in step C3) and of the reference image of the type of document determined in step C2).

Description

TITRE : Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées TITLE: Process for segmenting an input image representing a document containing structured information
DOMAINE TECHNIQUE GENERAL GENERAL TECHNICAL FIELD
La présente invention concerne le domaine de l’identification des documents comportant des informations structurées, par exemple sous la forme de cases à cocher. Plus particulièrement elle concerne une méthode d’identification (classification) et de segmentation d’un tel document, par exemple un bulletin de jeu, dans une image prise dans un environnement non contrôlé. The present invention relates to the field of the identification of documents comprising structured information, for example in the form of check boxes. More particularly it relates to a method of identification (classification) and segmentation of such a document, for example a game bulletin, in an image taken in an uncontrolled environment.
ETAT DE L’ART STATE OF THE ART
Par « document comportant des informations structurées » on comprendra un élément, généralement sur support papier ayant une forme et des motifs prédéfinis, comportant des indications et un ensemble de zones à remplir, par exemple des cases à cocher. Un tel document peut-être par exemple un bulletin de jeu (de loterie par exemple), un formulaire, ou un questionnaire à choix multiples. The term “document comprising structured information” will be understood to mean an element, generally on paper medium having a predefined shape and patterns, comprising indications and a set of areas to be completed, for example boxes to be checked. Such a document may for example be a game slip (lottery for example), a form, or a multiple choice questionnaire.
Le traitement des documents comportant des informations structurées a connu de nombreux développements grâce aux avancées faites dans le domaine de la vision par ordinateur. The processing of documents containing structured information has undergone many developments thanks to advances made in the field of computer vision.
Des procédés ont ainsi été proposés tel que celui décrit dans le brevet FR2983607, permettant le suivi d’un objet dans une séquence d’au moins deux images, reposant sur une extraction de points caractéristiques dans les images, par exemple par des descripteurs SIFT (« scale-invariant feature transform »), ainsi qu’une mise en correspondance des points caractéristiques entre les images. Ce procédé comprend une étape de sélection de points dits « singuliers » qui permet de réduire les ambiguïtés dans le cas de documents qui présentent des motifs répétitifs comme les cases des bulletins de jeu. Il permet d’assurer le suivi d’un document présent dans un flux vidéo, sans que le modèle de document ne soit connu au préalable, et exploite un ensemble de points d’intérêts présents dans les images. Ce procédé permet ainsi de déterminer une zone de présence et une segmentation de l’objet, issue de l’analyse du mouvement entre les images. Cependant, les performances de l’extraction des points d’intérêt de cette approche sont limitées par l’absence d’image de référence. En fonction des documents il peut y avoir des régions avec peu ou pas de points caractéristiques, qui seront alors mal détectées par le procédé. Enfin dans les cas d’empilement de documents, le dernier document ajouté peut provoquer un mouvement de documents situés en dessous, dont certaines parties peuvent alors être incorrectement détectées, ou alors qui peut empêcher une détection correcte du dernier document ajouté. Enfin ce procédé a comme inconvénient majeur qu’il ne permet pas d’identifier le modèle de document. Methods have thus been proposed such as that described in patent FR2983607, allowing the tracking of an object in a sequence of at least two images, based on an extraction of characteristic points in the images, for example by SIFT descriptors ( "Scale-invariant feature transform"), as well as a mapping of characteristic points between images. This method comprises a step of selecting so-called “singular” points which makes it possible to reduce ambiguities in the case of documents which present repetitive patterns such as the boxes of game slips. It makes it possible to ensure the follow-up of a document present in the document. a video stream, without the document model being known beforehand, and uses a set of points of interest present in the images. This method thus makes it possible to determine a zone of presence and a segmentation of the object, resulting from the analysis of the movement between the images. However, the performance of the point of interest extraction of this approach is limited by the absence of a reference image. Depending on the documents, there may be regions with few or no characteristic points, which will then be poorly detected by the method. Finally, in the case of stacking of documents, the last document added can cause a movement of documents located below, some parts of which can then be incorrectly detected, or that may prevent correct detection of the last added document. Finally, this method has the major drawback that it does not make it possible to identify the document model.
Un autre procédé, proposé dans le brevet FR3027136, permet l’identification d’au moins un signe d’un document déformé reposant sur la segmentation de régions de signes candidates, puis l’identification conjointe de ces régions de signes candidates et d’un modèle de déformation par rapport à des modèles de documents préalablement stockés. Cependant, ce procédé présente certains inconvénients, tout d’abord, il ne permet pas de classifier et segmenter une image, son but est simplement de décoder un document donné à partir d’un patron de document. De plus, le procédé décrit dans ce brevet requiert une délimitation manuelle des régions du document comprenant des informations afin d’identifier celui-ci. Enfin, comme ce procédé ne comprend pas d’étape de segmentation, il peut être perturbé par la présence d’autres documents dans le champ de vision du système d’acquisition utilisé. Another method, proposed in patent FR3027136, allows the identification of at least one sign of a deformed document based on the segmentation of candidate sign regions, then the joint identification of these candidate sign regions and a deformation model compared to previously stored document models. However, this method has certain drawbacks, first of all, it does not allow classification and segmentation of an image, its purpose is simply to decode a given document from a document template. In addition, the method described in this patent requires manual delineation of the regions of the document comprising information in order to identify it. Finally, since this process does not include a segmentation step, it can be disturbed by the presence of other documents in the field of view of the acquisition system used.
PRESENTATION DE L’INVENTION PRESENTATION OF THE INVENTION
Selon un premier aspect, la présente invention concerne un procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement des étapes de : According to a first aspect, the present invention relates to a method of segmenting an input image representing a document comprising structured information, the method comprising the implementation by processing means of the steps of:
C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document ; C2) Determination of a document type by a classification method, said type being chosen from a set of possible types each associated with a reference image of the document type;
C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape C2) pour obtenir le document tel que représenté par l’image d’entrée ; C3) Estimation of the parameters of a geometric transformation to be applied to the reference image of the type of document determined in step C2) to obtain the document as represented by the input image;
C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape C3) et de l’image de référence du type de document déterminé à l’étape C2). C4) Determination of a segmentation mask from the parameters of the geometric transformation estimated in step C3) and from the reference image of the document type determined in step C2).
Selon d’autres caractéristiques avantageuses et non limitatives : According to other advantageous and non-limiting characteristics:
- le procédé comprend en outre une étape C1) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape C2) - the method further comprises a step C1) of acquiring an image comprising the document comprising structured information to be segmented, carried out before step C2)
- les documents peuvent être des tickets de jeux comportant des cases à cocher ; - la méthode de classification peut être un réseau de neurones profond, et plus particulièrement un réseau de neurones profond de type convolutif ; - the documents can be game tickets with check boxes; the classification method can be a deep neural network, and more particularly a convolutional type deep neural network;
- la méthode de classification peut être une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt ; - l’étape C1 ) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous- échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter ; - the classification method can be a point of interest type method combined with a partitioning of points of interest; - step C1) of acquiring an image comprising at least one document comprising structured information to be segmented further comprises a step of sub-sampling the image comprising the at least one document comprising structured information to be segmented;
- les déformations géométriques sont des déformations représentées par des fonctions affines ; - geometric strains are strains represented by affine functions;
- l’estimation des paramètres de la transformation géométrique de l’étape C3) est réalisée par un réseau de neurones profond : - the estimation of the parameters of the geometric transformation of step C3) is carried out by a deep neural network:
- le réseau de neurones profond est sélectionné parmi une pluralité de réseaux de neurones correspondant chacun à un type de document, à partir du type de document déterminé à l’étape C2) ; - the deep neural network is selected from a plurality of neural networks each corresponding to a type of document, from the type of document determined in step C2);
- le procédé de segmentation comprend une étape préalable d’augmentation des données d’entrainement à partir d’une unique image de référence pour chaque type de documents à segmenter, l’étape d’augmentation des données d’entrainement comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement l’une et/ou l’autre des étapes de : the segmentation method comprises a preliminary step of increasing the training data from a single reference image for each type of document to be segmented, the step of increasing the training data comprising, for each type of documents, the implementation by means of processing one and / or the other of the stages of:
E2) Simulation de déformations géométriques aléatoires ; E2) Simulation of random geometric deformations;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ; E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ; E3) Simulation of a background to the image by overlaying the image having undergone the deformations in a texture generated randomly or selected from a list of textures, representing the background of the image; E4) Simulation of photometric degradations by modification of the contrast and colorimetry of the image generated in the previous step;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document ; une étape d’entrainement d’un réseau de neurones mis en oeuvre à l’étape C2) et/ou à l’étape C3) sur la base des données d’entrainement augmentées. E5) Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as we wish to have training examples for the type of document; a step of training a neural network implemented in step C2) and / or in step C3) on the basis of the augmented training data.
Selon un second aspect, l’invention concerne un procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect, à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement des étapes de : According to a second aspect, the invention relates to a method of increasing the training data for the training of a segmentation method according to the first aspect, from a single reference image for each type of document to be segmenting, the method comprising, for each type of document, the implementation by processing means of the steps of:
E2) Simulation de déformations géométriques aléatoires ; E2) Simulation of random geometric deformations;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ; E3) Simulation of a background to the image by overlaying the image having undergone the deformations in a texture generated randomly or selected from a list of textures, representing the background of the image;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ; E4) Simulation of photometric degradations by modification of the contrast and colorimetry of the image generated in the previous step;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document. E5) Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as you want to have training examples for the type of document.
Selon d’autres caractéristiques avantageuses et non limitatives : According to other advantageous and non-limiting characteristics:
- le procédé comprend en outre une étape E1) d’acquisition d’une image de référence du type de document réalisée avant l’étape E2). - The method further comprises a step E1) of acquiring a reference image of the type of document produced before step E2).
- les déformations géométriques peuvent être des déformations représentées par des fonctions affines ; - the geometrical deformations can be deformations represented by affine functions;
- le procédé comprend en outre une étape E3bis) de masquage, permettant de masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable. the method further comprises a masking step E3bis), making it possible to mask the areas of the reference image of the document type which may be different from one document of the same type to another by applying a texture randomly generated or selected in a list of textures, representing a variable pattern.
L’invention propose en outre un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon le premier aspect ou d’un procédé d’augmentation des données d’entrainement selon le second aspect, lorsque ledit programme est exécuté sur un ordinateur The invention further provides a computer program product comprising code instructions for executing a segmentation method according to the first aspect or a training data augmentation method according to the second aspect, when said program is executed on a computer; and a storage means readable by computer equipment on which a computer program product comprising code instructions for the execution of a segmentation method according to the first aspect or of a method of increasing the training data according to the second aspect, when said program is executed on a computer
PRESENTATION DES FIGURES PRESENTATION OF FIGURES
D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels : [Fig. 1] la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ; Other characteristics and advantages of the present invention will become apparent on reading the following description of a preferred embodiment. This description will be given with reference to the accompanying drawings in which: [Fig. 1] FIG. 1 is a diagram of an architecture for the implementation of the method according to the invention;
[Fig.2] la figure 2 représente les étapes d’un mode de réalisation du procédé de segmentation selon l’invention ; [Fig.2] Figure 2 shows the steps of one embodiment of the segmentation method according to the invention;
[Fig. 3] la figure 3 représente les étapes d’un mode de réalisation du procédé d’augmentation de données selon l’invention ; [Fig. 4] la figure 4 illustre des exemples d’images générées par le procédé d’augmentation de données. [Fig. 3] FIG. 3 shows the steps of one embodiment of the data augmentation method according to the invention; [Fig. 4] Figure 4 illustrates examples of images generated by the data augmentation process.
DESCRIPTION DETAILLEE Architecture DETAILED DESCRIPTION Architecture
Selon deux aspects complémentaires de l’invention, sont proposés : According to two complementary aspects of the invention, are proposed:
- Un procédé de segmentation d’un document comportant des informations structurées ;- A process for segmenting a document comprising structured information;
- Un Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon le premier aspect à partir d’une unique image de référence pour chaque type de documents à segmenter. - A training data augmentation method for training a segmentation process according to the first aspect from a single reference image for each type of document to be segmented.
Ces procédés sont mis en œuvre au sein d’une architecture telle que représentée par la figure 1 , grâce à un serveur de segmentation 1 (mettant en œuvre le procédé de segmentation), un serveur d’apprentissage 3 (mettant en œuvre le procédé d’apprentissage), une base de données 4 (servant à stocker les images de référence des différents types de documents) et un client 2 (disposant d’images de documents à segmenter), par exemple un terminal d’un utilisateur tel qu’un ordinateur portable ou un smartphone. Il est tout à fait possible que certains ou la totalité de ces équipements soient confondus, par exemple le serveur de segmentation 1 peut être regroupé avec le client 2, et le serveur d’apprentissage peut comprendre la base de données. These methods are implemented within an architecture such as represented by FIG. 1, thanks to a segmentation server 1 (implementing the segmentation method), a learning server 3 (implementing the method of 'learning), a database 4 (used to store the reference images of the different types of documents) and a client 2 (having images of documents to be segmented), for example a terminal of a user such as a laptop or smartphone. It is quite possible that some or all of this equipment is confused, for example the segmentation server 1 can be grouped together with the client 2, and the learning server can understand the database.
Les équipements 1 , 2, et 3 sont typiquement des équipements informatiques distants reliés à un réseau étendu 10 tel que le réseau internet pour l’échange des données ; chacun comprend des moyens de traitement de données respectivement 11 , 21 , 31 de type processeur, et des moyens de stockage de données 12, 22, 32 tel qu’une mémoire informatique, par exemple un disque. Le client 2 comprend en outre des moyens d’acquisition d’images 23 afin d’obtenir des images des documents à segmenter. La base de données 4, peut être soit un serveur indépendant des moyens de traitement de données et de stockage propres, soit un serveur de fichier (par exemple un serveur NAS), soit un système de gestion de base de données intégré au serveur d’apprentissage. Cette base de données stocke des images de référence pour chaque type de documents à segmenter. The equipment 1, 2, and 3 are typically remote computer equipment connected to a wide area network 10 such as the Internet network for the exchange of data; each comprises data processing means 11, 21, 31 respectively of processor type, and data storage means 12, 22, 32 such as a computer memory, for example a disk. The client 2 further comprises image acquisition means 23 in order to obtain images of the documents to be segmented. The database 4 can be either a server independent of the own data processing and storage means, or a file server (for example a NAS server), or a database management system integrated into the server. learning. This database stores reference images for each type of document to be segmented.
Par image de référence , on entend une image de bonne qualité (sans défaut de prise de vue) comportant uniquement le document à l’échelle (donc non déformé), une telle image peut être par exemple un fichier source généré par un logiciel de dessin assisté par ordinateur. Notamment, une telle image de référence ne comprend aucune information interprétée relative au document. L’ image de référence peut notamment être une image représentative du document vierge de tout remplissage des zones à remplir par un utilisateur du document. By reference image, we mean an image of good quality (without shooting defect) comprising only the document to scale (therefore not distorted), such an image can be for example a source file generated by a drawing software. computer assisted. In particular, such a reference image does not include any interpreted information relating to the document. The reference image can in particular be an image representative of the document free of any filling of the areas to be filled by a user of the document.
Par forme d’un document représenté sur une image, on entend au sens large la position, l’orientation et le contour de ce document dans cette image. Ainsi, pour un contour donné, la forme comprend la position du centre de gravité de ce contour dans l’image du document, et l’orientation dans le plan de ce contour par rapport à un repère orthonormé de l’image. Ainsi, un même document peut être imagé en divers endroits par rapport au capteur, en différentes orientations (plus ou moins tourné par rapport au repère orthonormé du capteur, voire à 180°), et/ou déformé dans le cas d’un document souple. By form of a document represented in an image, we mean in a broad sense the position, orientation and outline of that document in that image. Thus, for a given contour, the shape includes the position of the center of gravity of this contour in the image of the document, and the orientation in the plane of this contour with respect to an orthonormal coordinate system of the image. Thus, the same document can be imaged in various places with respect to the sensor, in different orientations (more or less rotated with respect to the orthonormal reference mark of the sensor, or even at 180 °), and / or deformed in the case of a flexible document. .
Principe Principle
L’idée des procédés proposés est de permettre l’utilisation et l’entrainement de méthodes de segmentation nécessitant de grandes quantités de données, tel que les réseaux de neurones, en se contentant d’un exemple par classe (ou type de document) lors de l’entrainement et en appliquant une chaîne d’augmentation d’images suffisamment représentative des images de documents réels et permettant ainsi d’avoir un volume d’images suffisant pour l’apprentissage de la méthode de segmentation.The idea of the proposed methods is to allow the use and training of segmentation methods requiring large amounts of data, such as neural networks, by being satisfied with one example per class (or type of document) when training and by applying an image augmentation chain sufficiently representative of the images of real documents and thus making it possible to have a sufficient volume of images for learning the segmentation method.
Pour cela, le procédé de segmentation est divisé en un sous-procédé de classification suivi d’une estimation des paramètres d’une transformation géométrique qui, lorsqu’elle est appliquée à l’image de référence du type de document déterminé par la méthode de classification, fait correspondre la forme de l’image de référence à la forme du document dans l’image à segmenter. Elle permet ainsi de segmenter des documents à partir de documents de référence dont la forme et les contours sont connus à l’avance sans avoir besoin d’entraîner une méthode de segmentation sur des exemples où chaque pixel de l’image a été annoté manuellement. De plus, dans certains modes de réalisation, la séparation des étapes de détermination d’un masque de segmentation et de classification simplifie l’ajout d’un nouveau type de document au modèle car il n’est alors pas nécessaire de ré-entraîner l’ensemble du modèle, seulement les portions qui ont changées. Par « modèle », on entend ainsi les parties du ou des réseaux de neurones qui sont impliquées dans la prise en compte d’un nouveau type de document. For this, the segmentation process is divided into a classification sub-process followed by an estimation of the parameters of a geometric transformation which, when applied to the reference image of the document type determined by the classification, matches the shape of the reference image to the shape of the document in the image to be segmented. It thus makes it possible to segment documents from reference documents whose shape and contours are known in advance without having to train a segmentation method on examples where each pixel of the image has been annotated manually. In addition, in some embodiments, the separation of the steps of determining a segmentation and classification mask simplifies the addition of a new type of document to the model because it is then not necessary to re-train the entire model , only the portions that have changed. The term “model” is understood to mean the parts of the neural network (s) which are involved in taking into account a new type of document.
L’utilisation de méthodes basées sur les réseaux de neurones permet en outre de réduire les temps de calculs nécessaires par rapport à l’état de la technique, en effet contrairement aux méthodes de point d’intérêt qui ne nécessitent pas forcément d’entrainement comme les réseaux de neurones, mais ont un temps de calcul dépendant de la complexité des données d’entrées, les réseaux de neurones permettent en revanche d’avoir un temps de calcul constant quelle que soit l’image d’entrée lors de la classification. De plus, de manière surprenante, la décomposition, dans certains modes de réalisation, de la classification et de la détermination du masque de segmentation en deux tâches différentes permet aussi de réduire le temps de calcul par rapport à une méthode réalisant la classification et la détermination du masque de segmentation dans un même temps. En effet, le procédé de détermination du masque de segmentation étant spécifique à chaque type de document, et donc moins complexe, et la classification étant une opération plus simple que la segmentation, la charge de calcul induite par l’utilisation de ces deux procédés est inférieure à celle d’un procédé réalisant les deux opérations dans le même temps. The use of methods based on neural networks also makes it possible to reduce the necessary calculation times compared to the state of the art, in fact unlike point-of-interest methods which do not necessarily require training such as neural networks, but have a computation time depending on the complexity of the input data, neural networks on the other hand make it possible to have a constant computation time whatever the input image during classification. In addition, surprisingly, the decomposition, in some embodiments, of the classification and the determination of the segmentation mask into two different tasks also makes it possible to reduce the computation time compared to a method performing the classification and the determination. of the segmentation mask at the same time. Indeed, the method of determining the segmentation mask being specific to each type of document, and therefore less complex, and the classification being a simpler operation than the segmentation, the computational load induced by the use of these two methods is lower than that of a process performing both operations at the same time.
Phase de classification et de segmentation Classification and segmentation phase
En référence à la figure 2, le procédé de segmentation comprend une première étape, C1 , d’acquisition d’une image à traiter comportant le document à classer et segmenter. Cette image peut être acquise soit par des moyens de prise de vue 23, intégrés au client 2, soit être acquise via un réseau d’échange de données 10 tel que l’internet, cette étape peut en outre comprendre un sous-échantillonnage de l’image acquise afin de simplifier son traitement. Si le document à classer comprend des zones à remplir, une ou plusieurs de ces zones à remplir peuvent avoir été remplies par un utilisateur du document avant l’étape d’acquisition. Notamment lorsqu’elle est acquise par des moyens de prise de vue 23 dédiés, prévus à cet effet, l’image à traiter comporte le document à classer et segmenter, mais aussi une région de l’espace autour du document à classer. D’une part la forme du document à classer dans l’image est inconnue. D’autre part, la région de l’espace autour du document à classer peut être très variable selon les images. Elle peut comprendre un support du document à classer. Dans le cas où le document à imager est posé sur un ou plusieurs autres documents lors de l’acquisition, elle peut comprendre des parties de ce ou ces autres documents si l’empilement des documents n’est pas parfaitement superposé. Enfin, dans certains cas d’acquisition d’un document non supporté, la région de l’espace autour du document peut comprendre un fond distant dépendant de l’environnement du document lors de l’acquisition. L’image peut en particulier contenir des motifs répétitifs, comme c’est le cas par exemple pour les bulletins de jeu, qui comprennent plusieurs cases de forme identique. With reference to FIG. 2, the segmentation method comprises a first step, C1, of acquiring an image to be processed comprising the document to be classified and segmented. This image can be acquired either by shooting means 23, integrated into the client 2, or be acquired via a data exchange network 10 such as the Internet, this step can also include a sub-sampling of the image acquired in order to simplify its processing. If the document to be classified includes areas to be completed, one or more of these areas to be completed may have been completed by a user of the document before the acquisition step. In particular when it is acquired by dedicated shooting means 23 provided for this purpose, the image to be processed comprises the document to be classified and segmented, but also a region of space around the document to be classified. On the one hand, the form of the document to be classified in the image is unknown. On the other hand, the region of the space around the document to be classified can be very variable depending on the images. It can include a support for the document to be classified. If the document to be imaged is placed on one or more other documents during acquisition, it may include parts of this or these other documents if the stack of documents is not perfectly superimposed. Finally, in certain cases of acquisition of an unsupported document, the region of space around the document may include a remote background depending on the environment of the document during the acquisition. The image may in particular contain repeating patterns, as is the case for example for game slips, which include several boxes of identical shape.
L’image à traiter est ensuite transmise à un classifieur afin de déterminer le type du document lors d’une étape C2, cette classification peut alors être réalisée par un algorithme standard de classification, par exemple un réseau de neurones convolutif (CNN) tel que VGG16, DenseNet, ResNet etc. ou une méthode correspondance de points d’intérêt tel que SIFT ou SURF (« Speeded Up Robust Features »), tel que ce sera détaillé ci-dessous. The image to be processed is then transmitted to a classifier in order to determine the type of the document during a step C2, this classification can then be carried out by a standard classification algorithm, for example a convolutional neural network (CNN) such as VGG16, DenseNet, ResNet etc. or a point of interest matching method such as SIFT or SURF (“Speeded Up Robust Features ), as will be detailed below.
Selon un premier exemple, la classification est réalisée par un réseau de neurones convolutif. Dans ce cas, un réseau de neurones a été entraîné pour déterminer le type de document à partir d’une image d’entrée. Ainsi, on fournit en entrée du réseau de neurones l’image acquise, et le réseau de neurones fournit en sortie la classe du document figurant sur l’image. La classe du document peut par exemple être choisie dans la liste suivante : {passeport ; carte d’identité ; permis de conduire ; carte de membre ; billet de banque ; bulletin de jeu ; formulaire ; questionnaire à choix multiple}. La « carte de membre » peut par exemple être une carte délivrée à certaines personnes dans certains cas (par exemple, carte de mutuelle, carte de fidélité, ...). La classe du document peut également comprendre une sous-classe. Par exemple, dans le cas d’un « bulletin de jeu », la classe du document peut également peut également comprendre une sous-classe relative à un identifiant du jeu concerné. According to a first example, the classification is carried out by a convolutional neural network. In this case, a neural network was trained to determine the document type from an input image. Thus, the acquired image is supplied as input to the neural network, and the neural network outputs the class of the document appearing on the image. The class of the document can for example be chosen from the following list: {passport; ID card ; driver's license ; membership card ; Bank note ; game bulletin; form ; multiple choice test}. The “membership card” can for example be a card issued to certain people in certain cases (for example, mutual insurance card, loyalty card, etc.). The document class can also include a subclass. For example, in the case of a "game bulletin", the document class can also include a subclass relating to an identifier of the game concerned.
Une fois le type de document identifié, une méthode de régression est utilisée afin d’estimer les paramètres d’une transformation géométrique (par exemple une transformation affine) qui, lorsqu’elle est appliquée à l’image de référence du type de document identifié, permet de retrouver la forme du document présent dans l’image à traiter. Cette régression peut être faite grâce à un réseau de neurones profond. On utilise par exemple un réseau de neurones spécifique respectif pour chaque type de document identifié au cours de l’étape de classification. Dans cet exemple, un réseau de neurones a été entraîné pour déterminer, à partir d’une image d’entrée, les paramètres d’une transformation géométrique à appliquer au document de référence associé au type de document pour le faire correspondre à l’image d’entrée. Ainsi, on fournit en entrée du réseau de neurones l’image acquise, ainsi que le type de document déterminé à l’étape précédente, et le réseau de neurones fournit en sortie des paramètres de transformation géométrique. Les paramètres de transformation géométrique peuvent par exemple comprendre les paramètres d’une translation du centre de gravité, d’une rotation planaire, et d’une déformation. Once the document type has been identified, a regression method is used to estimate the parameters of a geometric transformation (for example an affine transformation) which, when applied to the reference image of the identified document type , allows you to find the shape of the document present in the image to be processed. This regression can be done using a deep neural network. For example, a respective specific neural network is used for each type of document identified during the classification step. In this example, a neural network was trained to determine, from an input image, the parameters of a geometric transformation to apply to the reference document associated with the document type to make it correspond to the input image. Thus, the acquired image is supplied as input to the neural network, as well as the type of document determined in the previous step, and the neural network provides geometric transformation parameters as output. The geometric transformation parameters can for example comprise the parameters of a translation of the center of gravity, of a planar rotation, and of a deformation.
En variante, on peut utiliser, pour la méthode de régression, un réseau de neurones d’un type similaire à celui utilisé pour l’étape de classification (de préférence un CNN tel que VGG16, DenseNet, ResNet etc.) auquel est ajoutée une couche de connexion dense destinée à estimer les paramètres de la transformation géométrique. As a variant, one can use, for the regression method, a neural network of a type similar to that used for the classification step (preferably a CNN such as VGG16, DenseNet, ResNet etc.) to which is added a dense connection layer intended to estimate the parameters of the geometric transformation.
Il est aussi possible de combiner le réseau de classification et le réseau de régression en réutilisant les premières couches du réseau de classification pour la régression. Dans ce cas, on utilise un réseau de neurones unique qui, à partir de l’image d’entrée, estime à la fois le type de document et les paramètres géométriques de la transformation. Selon un deuxième exemple, la classification est réalisée par une méthode par correspondance de points d’intérêt. Dans ce cas, on dispose, pour chaque type de document, d’un modèle de document comprenant une image de référence de ce type de document. Le modèle de document comporte également des informations structurées relatives à des informations interprétées (méta-données) relatives au document de référence. Ces informations interprétées comprennent notamment la nature et la position de points d’intérêt du document de référence. L’étape de classification du type de document comprend, pour chaque type de document, un traitement d’image appliqué à l’image acquise en vue de déterminer, sur l’image acquise, des points d’intérêt, puis une étape de mise en correspondance de ces points d’intérêts déterminés sur l’image acquise avec les points d’intérêts déterminés dans le modèle de document pour l’image de référence. Ainsi, l’image est classifiée comme correspondant à un type de document pour le type de document pour lequel la mise en correspondance des points d’intérêt de l’image acquise avec ceux du modèle de document pour ce type de document donne les meilleurs résultats. Selon certains exemples, la méthode par correspondance par points d'intérêt comprend un partitionnement des points d’intérêt en différentes régions chacune traitée indépendamment. It is also possible to combine the classification network and the regression network by reusing the first layers of the classification network for the regression. In this case, a single neural network is used which, from the input image, estimates both the type of document and the geometric parameters of the transformation. According to a second example, the classification is carried out by a method by correspondence of points of interest. In this case, there is, for each type of document, a document model comprising a reference image of this type of document. The document model also includes structured information relating to interpreted information (metadata) relating to the reference document. This interpreted information includes in particular the nature and position of points of interest in the reference document. The document type classification step comprises, for each document type, image processing applied to the acquired image with a view to determining, on the acquired image, points of interest, then a setting step. in correspondence of these points of interest determined on the acquired image with the points of interest determined in the document model for the reference image. Thus, the image is classified as corresponding to a document type for the type of document for which the mapping of the points of interest of the acquired image with those of the document model for that type of document gives the best results. . According to some examples, the point-of-interest correspondence method includes a partitioning of the points of interest into different regions each treated independently.
Dans ce deuxième exemple, on applique alors un réseau de neurones pour déterminer les paramètres de la transformation géométrique, comme décrit ci-dessus dans le cadre du premier exemple. In this second example, a neural network is then applied to determine the parameters of the geometric transformation, as described above in the context of the first example.
Dans un troisième exemple, on met en œuvre une étape de classification comme décrit ci-dessus dans le premier exemple, au moyen d’un réseau de neurones. In a third example, a classification step is implemented as described above in the first example, by means of a neural network.
La régression peut alors être faite à partir des coins du document à segmenter si celui-ci a une forme polygonale ou bien à partir de points de marquage ajoutés à tous les documents d’un même type. Il suffit alors de trouver les paramètres d’une transformation géométrique qui permet de faire correspondre à un point ou coté du document dans l’image de référence du type de document, le point ou coté équivalent dans le document à segmenter. The regression can then be made from the corners of the document to be segmented if it has a polygonal shape or from marking points added to all documents of the same type. It suffices then to find the parameters of a geometric transformation which makes it possible to correspond to a point or side of the document in the reference image of the document type, the point or equivalent side in the document to be segmented.
Enfin, dans l’ensemble des exemples de réalisation ci-dessus, un masque de segmentation est créé en appliquant la transformation géométrique calculée à l’étape précédente au contour du document de l’image de référence afin d’obtenir le contour du document présent dans l’image à traiter. Ce masque de segmentation permet ainsi de déterminer la forme (position, orientation, contour) du document dans l’image acquise. Ceci permet notamment de s’affranchir des bords de documents disposés sous le document à analyser, visibles dans l’image acquise. Finally, in all the exemplary embodiments above, a segmentation mask is created by applying the geometric transformation calculated in the previous step to the outline of the document of the reference image in order to obtain the outline of the present document. in the image to be processed. This segmentation mask thus makes it possible to determine the shape (position, orientation, outline) of the document in the acquired image. This makes it possible in particular to overcome the edges of documents placed under the document to be analyzed, visible in the acquired image.
Cette forme est utilisée ensuite pour traiter l’image acquise en vue d’extraire des informations du document structuré. Le traitement en question peut utiliser des paramètres de la déformation géométrique déterminés comme décrit ci-dessus. Phase d’entrainement This form is then used to process the acquired image in order to extract information from the structured document. The processing in question can use parameters of the geometric strain determined as described above. Training phase
En référence à la figure 3, un procédé d’augmentation des données d’entrainement est proposé. Ce procédé est mis en œuvre par les moyens de traitement 31 du serveur d’apprentissage, afin de générer un nombre d’images d’entrainement suffisant pour permettre l’entrainement d’un modèle de segmentation efficace. Pour cela, on pourra utiliser une unique image de référence de bonne qualité pour chaque type de document à identifier, acquise lors d’une étape E1 soit par des moyens de prise de vue 23, soit sous la forme d’un fichier source à l’origine de l’image de référence du type de document. Referring to Figure 3, a method of increasing training data is proposed. This method is implemented by the processing means 31 of the training server, in order to generate a number of training images sufficient to allow training of an efficient segmentation model. For this, a single good quality reference image can be used for each type of document to be identified, acquired during a step E1 either by shooting means 23, or as a source file that is the original document type reference image.
Des déformations géométriques aléatoires sont ensuite simulées à l’étape E2, en appliquant une transformation géométrique (par exemple une transformation affine), dont les paramètres ont été déterminés aléatoirement, à l’image de référence, générant ainsi des images ayant subi des translations, des symétries, des homothéties etc. Random geometric deformations are then simulated in step E2, by applying a geometric transformation (for example an affine transformation), the parameters of which have been determined randomly, to the reference image, thus generating images that have undergone translations, symmetries, homothety, etc.
Ensuite, afin de simuler la présence d’un fond dans l’image, des textures représentant des images de fond sont créées en générant une image comportant des motifs aléatoires. Les images de documents ayant subi des déformations générées à l’étape précédente sont ensuite incrustées sur les images de fond lors d’une étape E3. En ce qui concerne les images de fond, on peut en particulier prévoir de générer des images comprenant des parties simulant des portions de documents disposés partiellement sous le document à analyser, et dépassant de sous celui-ci. Il est aussi possible d’ajouter un masque sur certaines parties de l’image du document si celui-ci comporte une ou plusieurs régions susceptibles d’être différentes d’un document du même type à l’autre et ainsi améliorer la capacité de généralisation du modèle entraîné. Pour cela une texture peut être générée de la même façon que les images de fond et appliquée à la région de l’image désirée, la texture de masquage étant de préférence différente de la texture de fond. Dans le cas, par exemple, d’un type de document comprenant des zones à remplir, notamment des cases à cocher, on peut ainsi générer une texture présentant le motif d’une zone remplie, qui peut être utilisé comme masque sur une ou plusieurs parties de l’image du document à l’emplacement des zones à remplir. Par exemple, on peut utiliser des textures faisant figurer une zone à remplir renseignée manuellement ou informatiquement par un caractère ou une suite de caractères. Dans le cas d’une zone à cocher, on peut utiliser des textures faisant figurer une case cochée. Then, in order to simulate the presence of a background in the image, textures representing background images are created by generating an image with random patterns. The images of documents having undergone deformations generated in the previous step are then overlaid on the background images during a step E3. With regard to the background images, provision can in particular be made to generate images comprising parts simulating portions of documents placed partially under the document to be analyzed, and protruding from below it. It is also possible to add a mask on certain parts of the image of the document if it includes one or more regions that may be different from one document of the same type to another and thus improve the generalization capacity of the trained model. For this, a texture can be generated in the same way as the background images and applied to the desired region of the image, the masking texture preferably being different from the background texture. In the case, for example, of a type of document comprising areas to be filled, in particular check boxes, it is thus possible to generate a texture presenting the pattern of a filled area, which can be used as a mask on one or more parts of the document image at the location of the fields to be filled. For example, it is possible to use textures showing a zone to be filled, filled in manually or by computer by a character or a series of characters. In the case of a checkbox, you can use textures showing a checked box.
Puis, afin de simuler des prises de vues faites dans des mauvaises conditions (par exemple mauvais éclairage, ou mauvaise mise au point), des dégradations photométriques sont appliquées, lors d’une étape E4, aux images générées à l’étape précédente. Ces dégradations peuvent être un effet de flou, une modification de la luminosité de l’image ou du contraste, ou encore des altérations des couleurs de l’image. Then, in order to simulate shots taken in bad conditions (for example bad lighting, or bad focusing), photometric degradations are applied, during a step E4, to the images generated in the previous step. These degradations can be a blurring effect, a change in the brightness of the image or contrast, or alterations in the colors of the image.
Enfin, un bruit numérique (par exemple bruit gaussien) est appliqué aux images générées dans une étape E5. Des exemples de documents produits par le procédé d’augmentation de données sont illustrés en figure 4. Finally, digital noise (for example Gaussian noise) is applied to the images generated in a step E5. Examples of documents produced by the data augmentation process are shown in Figure 4.
Cette figure illustre notamment des cas où les documents présentent une forme sensiblement plane, et présentent une unique face porteuse de l’information structurée. Les documents présentent un contour, qui peut être polygonal, ou comprendre des zones courbes, comme dans l’exemple présenté d’une forme de cœur. Le document peut comprendre un cartouche périphérique d’une certaine largeur et de couleur uniforme. Comme visible sur la figure 4, l’image peut ne comporter qu’une partie du document. C’est le cas notamment si une transformée géométrique a été appliquée au document de référence qui déplace hors cadre une partie du document. This figure illustrates in particular cases where the documents have a substantially planar shape, and have a single face carrying the structured information. The documents have an outline, which can be polygonal, or include curved areas, as in the example shown of a heart shape. The document may include a peripheral cartridge of a certain width and uniform color. As seen in Figure 4, the image may only include part of the document. This is particularly the case if a geometric transform has been applied to the reference document which moves part of the document out of frame.
L’ensemble de ces étapes est répété pour chaque type de document, et autant de fois que l’on souhaite obtenir d’exemple par type de document. Cela permet de résoudre le problème de la constitution d’une base de données pour l’entrainement des modèles de segmentation. All of these steps are repeated for each type of document, and as many times as one wishes to obtain an example by type of document. This solves the problem of building a database for training segmentation models.
Le fait que le document à analyser soit un document structuré implique de développer des réseaux de neurones qui sont spécifiques au traitement de documents structurés. En effet, les documents à analyser comprennent par essence des zones génériques pour le type de document en question, et des zones personnalisées (par exemple, une chaîne de caractères propre au titulaire d’un passeport, ou une pluralité de cases cochées et non cochées d’un bulletin de jeu), de sorte que le réseau de neurones se constituera de manière particulière au cours de l’apprentissage. Pour donner un exemple concret, sur un bulletin de jeu à cinquante cases à cocher, toutes identiques, dont six sont à cocher dans le cadre du jeu, les cases à cocher du document de référence forment des motifs réguliers facilement reconnaissables. Toutefois, un document à analyser va présenter certaines de ces cases cochées, justement de manière différente entre les bulletins, voire cochées de manière différente entre elles, ce qui rend difficile de s’appuyer sur la reconnaissance de ce motif régulier pour la classification. The fact that the document to be analyzed is a structured document implies the development of neural networks which are specific to the processing of structured documents. Indeed, the documents to be analyzed essentially comprise generic zones for the type of document in question, and personalized zones (for example, a character string specific to the holder of a passport, or a plurality of boxes checked and not checked. of a game report), so that the neural network will be formed in a particular way during the learning process. To give a concrete example, on a game slip with fifty check boxes, all identical, six of which are to be checked as part of the game, the check boxes in the reference document form easily recognizable regular patterns. However, a document to be analyzed will have some of these boxes checked, precisely in a different way between the ballots, or even checked in a different way between them, which makes it difficult to rely on the recognition of this regular pattern for classification.
Phase d’enrichissement avec un nouveau type de document Enrichment phase with a new type of document
Le système qui vient d’être décrit peut être facilement enrichi pour traiter un nouveau type de document. Ainsi, si un nouveau type de document est à reconnaître, notamment en cas d’édition d’un nouveau jeu, une image de référence du bulletin de jeu du nouveau jeu est utilisée. Puis, un ensemble d’images est généré à partir de l’image de référence, comme décrit ci-dessus. Le réseau de neurones déterminant le type de document est alors ré-entrainé avec ces nouvelles images d’entrainement. Puis, un réseau de neurones d’estimation des paramètres de déformation est créé et entraîné avec ces images d’entrainement. Produit programme d’ordinateur The system which has just been described can be easily enriched to process a new type of document. Thus, if a new type of document is to be recognized, in particular in the event of a new game being edited, a reference image of the game slip of the new game is used. Then, a set of images is generated from the reference image, as described above. The neural network determining the document type is then re-trained with these new training images. Then, a neural network for estimating the deformation parameters is created and trained with these training images. Computer program product
Selon des aspects complémentaires, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 11, 21 et 31 des serveurs 1 et/ou 3, et/ou du client 2) d’un procédé de segmentation d’un document comportant des informations structurées selon au moins une référence associée à un type de documents, le document étant présent dans une image d’entrée, ainsi que d’un procédé d’augmentation des données d’entrainement pour l’entrainement du procédé de segmentation décrit à partir d’une unique image de référence pour chaque type de documents à classifier et segmenter. De même, l’invention concerne aussi des moyens de stockage lisibles par un équipement informatique (une mémoire 12, 22 et 32 des serveurs 1 et/ou 3, et/ou du client 2) sur lequel on trouve ce produit programme d’ordinateur. According to additional aspects, the invention relates to a computer program product comprising code instructions for execution (in particular on the data processing means 11, 21 and 31 of the servers 1 and / or 3, and / or of the client 2) of a method of segmenting a document comprising information structured according to at least one reference associated with a type of document, the document being present in an input image, as well as of an augmentation method training data for training the segmentation process described from a single reference image for each type of document to be classified and segmented. Similarly, the invention also relates to storage means readable by computer equipment (a memory 12, 22 and 32 of the servers 1 and / or 3, and / or of the client 2) on which this computer program product is found. .

Claims

REVENDICATIONS
1 . Procédé de segmentation d’une image d’entrée représentant un document comportant des informations structurées, le procédé comprenant la mise en œuvre par des moyens de traitement (11 ) des étapes de : 1. A method of segmenting an input image representing a document comprising structured information, the method comprising the implementation by processing means (11) of the steps of:
C2) Détermination d’un type de document par une méthode de classification, ledit type étant choisi parmi un ensemble de types possible chacun associé à une image de référence du type de document, l’image de référence étant une image comportant uniquement le document ; C2) Determination of a document type by a classification method, said type being chosen from a set of possible types each associated with a reference image of the document type, the reference image being an image comprising only the document;
C3) Estimation des paramètres d’une transformation géométrique à appliquer à l’image de référence du type de document déterminé à l’étape C2) pour obtenir le document tel que représenté par l’image d’entrée ; C3) Estimation of the parameters of a geometric transformation to be applied to the reference image of the type of document determined in step C2) to obtain the document as represented by the input image;
C4) Détermination d’un masque de segmentation à partir des paramètres de la transformation géométrique estimés à l’étape C3) et de l’image de référence du type de document déterminé à l’étape C2). C4) Determination of a segmentation mask from the parameters of the geometric transformation estimated in step C3) and from the reference image of the document type determined in step C2).
2. Procédé de segmentation selon la revendication 1 , caractérisé en ce qu’il comprend en outre une étape C1 ) d’acquisition d’une image comprenant le document comportant des informations structurées à segmenter, réalisée avant l’étape C2). 2. The segmentation method according to claim 1, characterized in that it further comprises a step C1) of acquiring an image comprising the document comprising structured information to be segmented, carried out before step C2).
3. Procédé de segmentation selon l’une des revendications 1 et 2, caractérisé en ce que les documents sont des tickets de jeux comportant des cases à cocher. 3. A segmentation method according to one of claims 1 and 2, characterized in that the documents are game tickets with check boxes.
4. Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est un réseau de neurones profond. 4. The segmentation method according to one of claims 1 to 3, characterized in that the classification method is a deep neural network.
5. Procédé de segmentation selon la revendication 4, caractérisé en ce que le réseau de neurones profond est un réseau de neurones profond de type convolutif. 5. The segmentation method according to claim 4, characterized in that the deep neural network is a convolutional type deep neural network.
6. Procédé de segmentation selon l’une des revendications 1 à 3, caractérisé en ce que la méthode de classification est une méthode de type point d’intérêt combinée avec un partitionnement des points d’intérêt. 6. The segmentation method according to one of claims 1 to 3, characterized in that the classification method is a point of interest type method combined with a partitioning of points of interest.
7. Procédé de segmentation selon la revendication 2, caractérisé en ce que l’étape C1 ) d’acquisition d’une image comprenant au moins un document comportant des informations structurées à segmenter comprend en outre une étape de sous- échantillonnage de l’image comprenant le au moins un document comportant des informations structurées à segmenter. 7. The segmentation method according to claim 2, characterized in that step C1) of acquiring an image comprising at least one document comprising structured information to be segmented further comprises a step of sub- sampling of the image comprising the at least one document comprising structured information to be segmented.
8. Procédé de segmentation selon l’une des revendications 1 à 7 caractérisé en ce que les déformations géométriques sont des déformations représentées par des fonctions affines. 8. A method of segmentation according to one of claims 1 to 7 characterized in that the geometric deformations are deformations represented by affine functions.
9. Procédé de segmentation selon l’une des revendications 1 à 8 caractérisé en ce que l’estimation des paramètres de la transformation géométrique de l’étape C3) est réalisée par un réseau de neurones profond. 9. A segmentation method according to one of claims 1 to 8, characterized in that the estimation of the parameters of the geometric transformation of step C3) is carried out by a deep neural network.
10. Procédé de segmentation selon la revendication 9, caractérisé en ce que le réseau de neurones profond est sélectionné parmi une pluralité de réseaux de neurones correspondant chacun à un type de document, à partir du type de document déterminé à l’étape C2). 10. The segmentation method according to claim 9, characterized in that the deep neural network is selected from a plurality of neural networks each corresponding to a type of document, from the type of document determined in step C2).
11. Procédé de segmentation selon l’une des revendications 1 à 10, comprenant : une étape préalable d’augmentation des données d’entrainement à partir d’une unique image de référence pour chaque type de documents à segmenter, l’étape d’augmentation des données d’entrainement comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) l’une et/ou l’autre des étapes de : 11. The segmentation method according to one of claims 1 to 10, comprising: a prior step of increasing the training data from a single reference image for each type of document to be segmented, the step of increase in training data comprising, for each type of document, the implementation by processing means (31) of one and / or the other of the steps of:
E2) Simulation de déformations géométriques aléatoires ; E2) Simulation of random geometric deformations;
E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ; E3) Simulation of a background to the image by overlaying the image having undergone the deformations in a texture generated randomly or selected from a list of textures, representing the background of the image;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ; E4) Simulation of photometric degradations by modification of the contrast and colorimetry of the image generated in the previous step;
E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document ; une étape d’entrainement d’un réseau de neurones mis en oeuvre à l’étape C2) et/ou à l’étape C3) sur la base des données d’entrainement augmentées. E5) Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as we wish to have training examples for the type of document; a step of training a neural network implemented in step C2) and / or in step C3) on the basis of the augmented training data.
12. Procédé d’augmentation des données d’entrainement pour l’entrainement d’un procédé de segmentation selon l’une des revendications 1 à 11 à partir d’une unique image de référence pour chaque type de documents à segmenter, le procédé comprenant, pour chaque type de documents, la mise en œuvre par des moyens de traitement (31) des étapes de : 12. A method of increasing training data for training a segmentation method according to one of claims 1 to 11 from a single reference image for each type of document to be segmented, the method comprising, for each type of document, the implementation by processing means (31) of the steps of:
E2) Simulation de déformations géométriques aléatoires ; E3) Simulation d’un fond à l’image par incrustation de l’image ayant subi les déformations dans une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant le fond de l’image ; E2) Simulation of random geometric deformations; E3) Simulation of a background to the image by overlaying the image having undergone the deformations in a texture generated randomly or selected from a list of textures, representing the background of the image;
E4) Simulation de dégradations photométriques par modification du contraste et de la colorimétrie de l’image générée à l’étape précédente ; E5) Ajout d’un bruit numérique à l’image générée à l’étape précédente, les étapes précédentes étant répétées autant de fois que l’on souhaite avoir d’exemples d’entrainement pour le type de document. E4) Simulation of photometric degradations by modification of the contrast and colorimetry of the image generated in the previous step; E5) Adding digital noise to the image generated in the previous step, the previous steps being repeated as many times as you want to have training examples for the type of document.
13. Procédé d’augmentation des données d’entrainement selon la revendication 12, caractérisé en ce qu’il comprend en outre une étape E1 ) d’acquisition d’une image de référence du type de document réalisée avant l’étape E2). 13. Method for increasing training data according to claim 12, characterized in that it further comprises a step E1) of acquiring a reference image of the type of document carried out before step E2).
14. Procédé d’augmentation des données d’entrainement selon l’une des revendications 12 et 13, caractérisé en ce que les déformations géométriques sont des déformations représentées par des fonctions affines. 14. Method for increasing training data according to one of claims 12 and 13, characterized in that the geometric deformations are deformations represented by affine functions.
15. Procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 14, caractérisé en ce qu’il comprend en outre une étape E3bis) de masquage, permettant de masquer les zones de l’image de référence du type de document pouvant être différentes d’un document du même type à l’autre en appliquant une texture générée aléatoirement ou sélectionnée dans une liste de textures, représentant un motif variable. 15. Method for increasing the training data according to one of claims 12 to 14, characterized in that it further comprises a masking step E3bis), making it possible to mask the areas of the reference image of the type. document that can be different from one document of the same type to another by applying a texture randomly generated or selected from a list of textures, representing a variable pattern.
16. Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 11 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 15, lorsque ledit programme est exécuté sur un ordinateur. 16. Computer program product comprising code instructions for the execution of a segmentation method according to one of claims 1 to 11 or of a method of increasing training data according to one of claims. 12 to 15, when said program is executed on a computer.
17. Moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé de segmentation selon l’une des revendications 1 à 11 ou d’un procédé d’augmentation des données d’entrainement selon l’une des revendications 12 à 15, lorsque ledit programme est exécuté sur un ordinateur. 17. Storage means readable by computer equipment on which is recorded a computer program product comprising code instructions for the execution of a segmentation method according to one of claims 1 to 11 or of a A method of increasing training data according to one of claims 12 to 15, when said program is executed on a computer.
PCT/EP2020/087081 2019-12-18 2020-12-18 Method for segmenting an input image showing a document containing structured information WO2021123209A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20838959.3A EP4078435A1 (en) 2019-12-18 2020-12-18 Method for segmenting an input image showing a document containing structured information
CA3161385A CA3161385A1 (en) 2019-12-18 2020-12-18 Method for segmenting an input image showing a document containing structured information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1914750 2019-12-18
FR1914750A FR3105529B1 (en) 2019-12-18 2019-12-18 Method for segmenting an input image representing a document comprising structured information

Publications (1)

Publication Number Publication Date
WO2021123209A1 true WO2021123209A1 (en) 2021-06-24

Family

ID=71661901

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/087081 WO2021123209A1 (en) 2019-12-18 2020-12-18 Method for segmenting an input image showing a document containing structured information

Country Status (4)

Country Link
EP (1) EP4078435A1 (en)
CA (1) CA3161385A1 (en)
FR (1) FR3105529B1 (en)
WO (1) WO2021123209A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239118A1 (en) * 2009-03-17 2010-09-23 Behm William F Optical Signature to Enable Image Correction
FR2983607A1 (en) 2011-12-02 2013-06-07 Morpho METHOD AND DEVICE FOR TRACKING AN OBJECT IN A SEQUENCE OF AT LEAST TWO IMAGES
FR3027136A1 (en) 2014-10-10 2016-04-15 Morpho METHOD OF IDENTIFYING A SIGN ON A DEFORMATION DOCUMENT
EP3153991A1 (en) * 2015-10-05 2017-04-12 Safran Identity & Security Method for analysing a content of at least one image of a deformed structured document
CN110263694A (en) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 A kind of bank slip recognition method and device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100239118A1 (en) * 2009-03-17 2010-09-23 Behm William F Optical Signature to Enable Image Correction
FR2983607A1 (en) 2011-12-02 2013-06-07 Morpho METHOD AND DEVICE FOR TRACKING AN OBJECT IN A SEQUENCE OF AT LEAST TWO IMAGES
FR3027136A1 (en) 2014-10-10 2016-04-15 Morpho METHOD OF IDENTIFYING A SIGN ON A DEFORMATION DOCUMENT
EP3153991A1 (en) * 2015-10-05 2017-04-12 Safran Identity & Security Method for analysing a content of at least one image of a deformed structured document
CN110263694A (en) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 A kind of bank slip recognition method and device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROCCO IGNACIO ET AL: "Convolutional Neural Network Architecture for Geometric Matching", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 41, no. 11, 1 November 2019 (2019-11-01), pages 2553 - 2567, XP011748098, ISSN: 0162-8828, [retrieved on 20191001], DOI: 10.1109/TPAMI.2018.2865351 *

Also Published As

Publication number Publication date
CA3161385A1 (en) 2021-06-24
EP4078435A1 (en) 2022-10-26
FR3105529A1 (en) 2021-06-25
FR3105529B1 (en) 2022-10-28

Similar Documents

Publication Publication Date Title
EP3640843B1 (en) Method for extracting characteristics of a fingerprint represented by an input image
FR2907239A1 (en) Predetermined digital image searching and recognizing method for microcomputer, involves allocating subscript to index to provide image that obtains reduced image having value chosen by function applied to pixels of reduced image
EP3832535A1 (en) Method for detecting at least one visible element of interest in an input image by means of a convolutional neural network
EP3582141B1 (en) Method for learning parameters of a convolutional neural network
CA3024562A1 (en) Method of augmented authentification of a material subject
CA3043090C (en) Character recognition process
EP3570212A1 (en) Character recognition method
Yu et al. Artificial intelligence for Dunhuang cultural heritage protection: the project and the dataset
FR3088467A1 (en) METHOD FOR CLASSIFYING A REPRESENTATIVE INPUT IMAGE OF A BIOMETRIC TRAIT USING A CONVOLUTIONAL NEURON NETWORK
WO2008141872A1 (en) Method and device for the automated authentication of a set of points
WO2021123209A1 (en) Method for segmenting an input image showing a document containing structured information
EP3929809A1 (en) Method of detection of at least one visible biometric trait on an input image by means of a convolutional neural network
FR3072806B1 (en) METHOD FOR CALCULATING A GLOBAL DESCRIPTOR OF AN IMAGE
EP3908968A1 (en) Method for processing digital images
FR3095286A1 (en) Process for image processing of an identity document
SUDHAKAR et al. Image forgery detection based on fusion of lightweight deep learning models
EP2082336B1 (en) Method of fast searching and recognition of a digital image representative of at least one graphical pattern in a bank of digital images
WO2023031305A1 (en) Method for matching a candidate image with a reference image
GNANESWARI et al. An Efficient Fruit Identification and Ripening Detection Using CNN Algorithm
EP4091098A1 (en) Method for processing a candidate image
EP3910537A1 (en) Method for recognising and identifying keys for duplicating purposes
WO2012107696A1 (en) Methods, device and computer programs for recognising shapes, in real time, by means of an appliance including limited resources
FR2946773A1 (en) Method for recognition of e.g. text information, related to visually impaired user, in image processing field, involves recognizing information belonging to marked zone by graphical beacon if predefined characteristic is detected in image
FR2982057A1 (en) Method for recognition of playing card image acquired by video camera in scene, involves identifying image with reference image in event of success of search of reference vector near to signature vector in data base of memory
Poojitha et al. IMAGE FORGERY DETECTION BASED ON FUSION OF LIGHTWEIGHT DEEP LEARNING MODELS

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20838959

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3161385

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020838959

Country of ref document: EP

Effective date: 20220718