WO2019183659A1 - Inhaltsbasierte bildersuche - Google Patents

Inhaltsbasierte bildersuche Download PDF

Info

Publication number
WO2019183659A1
WO2019183659A1 PCT/AT2019/060108 AT2019060108W WO2019183659A1 WO 2019183659 A1 WO2019183659 A1 WO 2019183659A1 AT 2019060108 W AT2019060108 W AT 2019060108W WO 2019183659 A1 WO2019183659 A1 WO 2019183659A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
query image
computer
query
implemented method
Prior art date
Application number
PCT/AT2019/060108
Other languages
English (en)
French (fr)
Inventor
Peter Gemeiner
Vincent Bertrand Pascal LEPETIT
Original Assignee
Visualsearch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visualsearch Gmbh filed Critical Visualsearch Gmbh
Publication of WO2019183659A1 publication Critical patent/WO2019183659A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Definitions

  • the invention relates to a computer-implemented method for supporting or performing a content-based
  • Image Search searches for similar images based on a query image or reference image.
  • product images for example, sorted by their similarity with the query image displayed.
  • the product images are usually below optimal
  • the field of machine vision is well known. These systems analyze the content of the images to be compared (comparison images) and not just metadata associated with the images, such as keywords, tags or descriptions.
  • the content comparison uses, for example, signatures that are assigned to the individual images, and a distance measure between two signatures (which is why the signatures are sometimes referred to as vectors). For an efficient search, the signatures (comparative signatures) of the
  • Query will be the signature of the query image (i.e.
  • Interrogation Signature calculates the distance between the comparison signatures and the interrogation signature. The most similar comparison images are then those with the smallest distance; these are called search results displayed.
  • the signatures can be calculated using various methods.
  • the signature of a picture becomes thereby
  • SIFT Scale-invariant feature transform
  • SURF Speedy robust features
  • ORB Oriented Fast and Rotated LETTER
  • FREAK Fast Retina Keypoint
  • Comparative signatures can be indexed for efficient search within the comparison signatures different search strategies, for example, with classification schemes.
  • CNNs Convolutional Neural Networks
  • Illumination conditions of the query image For a precise and reproducible search results, it is therefore necessary to control the lighting conditions when taking the query image and to provide a normalized appearance of the object
  • a neural network is trained with training images whose
  • Brightness and contrast were adjusted manually. However, the technical application of such a correction for preparing an image search is not described.
  • Face images with a suitably trained neural network can be detected and compensated for
  • the present invention is based on the recognition that, in particular in the application for a product search,
  • the invention provides a computer-implemented method comprising:
  • an image signal captured by an image sensor e.g., as a "live” preview or “live view”
  • Image signal as a query image (or reference image) to a
  • the triggering time can be selected manually or automatically. It would be conceivable, for example, an automatically selected triggering time as soon as a suitable image sharpness and a suitable color reference are detected.
  • the forwarding may include, for example: transmitting the query image (or a corrected query image) over a computer network (in particular wirelessly, for example via a mobile network) to a content-based image search service. Following the content-based image search, the method may further include: displaying content-based content hits
  • the method thus provides technical assistance in the creation of a query image, which contains a color reference in addition to the product sought.
  • This color reference can thus be
  • the hint may include at least one marker for aligning at least one edge of the color reference.
  • the marker can the arrangement and orientation of a rectangular color reference approach, for example in a predefined corner of the query image, such as in the lower left corner of the query image (in this case, the
  • the indication may define an area for the optimum image detail, the area occupying between 15% and 35% of the image area of the acquired image signal, preferably between 20% and 30%, in particular approximately 25%.
  • the hint marks optimal vertices and / or edges for the color reference, or corresponds to a warning or feedback output if the color reference occupies too small and / or too large an area relative to the total area of the image signal ,
  • the disclosed method may in particular comprise the following steps:
  • a method with these two steps can also be used independently of the previously described steps to create a Improve image search.
  • the invention also extends generally to a computer-implemented method comprising: correcting the hue and / or the hue
  • Such a method does without an image sensor and without notice and with an (uncorrected) query image provided by any source.
  • performing a content-based image search on the basis of the corrected query image comprises: propagating the image
  • the provided selection may e.g. in the form of a list, in particular an ordered list, or in the form of a sorting, i. Selection for first place, second place, etc., available.
  • Comparative images were determined, the correction of the comparison images corresponds to that of the query image. That the comparison images undergo the step before the determination of the comparison signatures: Correcting the hue and / or the color saturation. Based on the thus corrected comparison images, the comparison signatures, e.g. by
  • Correcting the hue and / or color saturation of the query image may optionally include: determining a
  • Color error from a section of the query image is thus determined on the basis of only a part of the image data, for example a part with less than 90% with respect to the image area, in particular less than 50%.
  • the relevant section of the query image may contain, for example, a color reference.
  • the used section of the query image is assumed to be monochrome to determine the color error.
  • the determination of the driving error can work with the assumption that the color shown in the section used is white.
  • a deviation of the color represented by the image data from the assumed color corresponds to the color error to be detected.
  • Color saturation within the section are calculated and based on the calculated average, a correction factor for the hue and / or for the color saturation are determined, with which at least a part of the query image is corrected.
  • the correction factor can be used to correct at least the part outside the section or the entire query image.
  • the correction factor is chosen such that in the corrected query image the color represented by the corrected image data in the area of the crop corresponds on average at least to the hue or chroma of the expected color of the color reference (e.g., white).
  • the section to be used for the determination of the color error can be predetermined independently of the content of the query image, for example a rectangle with a predefined area in a predefined corner of the query image.
  • the method further comprises performing edge detection (e.g., using the sobel operator) within the query image and specifying the clipping to use for determining the color error based on the result of the edge detection.
  • edge detection e.g., using the sobel operator
  • the clipping may be within the recognized edge detection
  • Edges can be set or it can be a suitable one of the Edges limited area according to proximity to an optimal
  • the invention also relates to a device for
  • Data processing comprising means for executing the
  • the invention also encompasses a data processing system comprising such a device and means for carrying out the additional steps of the one described above
  • the invention also generally relates to a system comprising means for carrying out the steps of the method relating to the correction of the hue and / or the color saturation of the query image and subsequent steps according to one of the variants and options described above. That the steps of displaying and forwarding do not have to be done by this system
  • the invention also relates to a
  • Fig. 1 shows schematically an application of the subject
  • FIG. 2 shows exemplary image data from an overview, a query image and a corrected query image in connection with the application shown in FIG. 1;
  • FIG. 3 schematically shows a flow chart for a product search according to FIG. 1, including a preparation based on training images and comparison images;
  • FIG. 4 schematically shows an exemplary network model for use in the method according to FIG. 3;
  • FIG. 6 shows schematically an electronic device for use in the application according to FIG. 1.
  • the disclosed invention can be applied in a method of finding similar product articles using an image.
  • the provided method of that paper automatically detects and adjusts the luminance properties, in particular the hue and / or color saturation, of the captured query image.
  • a trained model of a Convolutional Neural Network is applied to calculate a query signature of the query image.
  • This query signature is with
  • Comparison signature database are stored, and the visually most similar items are the user at the terminal 103
  • This application allows users to search for visually similar articles while automatically color-distorting them
  • FIG. 2 Therein, a disturbing influence of a halogen light source on a white T-shirt 100 in the overview view 200 is shown.
  • the user first takes a query picture 201. He puts - guided by the mobile terminal 102 and the hint displayed thereon (see Fig. 1) - a piece of white paper 101 on the white T-shirt 100.
  • the white paper 101 corresponds to the area 202.
  • the in FIG. 1 the query image 201.
  • the hue and color saturation and generally the luminance are corrected and a corrected query image 204 is obtained. After a correction of hue and color saturation has been applied, the look of this white T-shirt is in the corrected
  • FIG. 3 schematically shows the subject method as well as a training method for preparing the neural network which is used for signature computation.
  • the construction of the network model is shown in more detail in Fig. 4, in this example consisting of three parallel convolutional neural
  • CNNs Networks 501-503, which are combined via a Triplet Loss feature 507.
  • the three CNNs 501-503 can have the same internal structure.
  • a network structure for example, the following architecture can be used:
  • FIG. 3 a CNN model is generally referred to in connection with FIG. 3, wherein FIG. 3 essentially shows six processing steps.
  • predefined user-specific CNN model is trained with a series of training images 302 (training step 304).
  • training step 304 the "Triplet Margin Loess" function was used:
  • a is the anchor
  • p is a positive example (ie, an image similar to the anchor image)
  • n is a negative example (ie, an image different from the anchor image)
  • a ⁇ , p ⁇ , and n ⁇ are the so-called signatures of the anchor, the positive example, and the negative example, respectively, ie, in this embodiment, a ⁇ , p ⁇ , and n ⁇ are dimension 128 vectors, respectively
  • margin is e.g. equal to 2.0.
  • the training images 302 are picked up by any product article with a normalized appearance. They are already corrected in terms of luminance, the position of the
  • the training is then organized into "epochs", using all training triplets at each epoch, and correcting the weights in the CNN model based on the values of the Loss function (see equation (1)) for example, after a
  • Collection of test images can be monitored, whether the
  • a training data set may have training images and test images in the ratio 85:15.
  • the trained CNN model is applied to comparison images 306 from a product database. For each comparison image, its signature is calculated and the comparison signatures 309 thus obtained are stored (signature calculation 307).
  • the query image 300 from a mobile camera contains a piece of white paper. This piece of white paper, more precisely the section of the paper corresponding to the white paper
  • Query image 300 is automatically detected (detection step 301). Third, the detected position of the white paper is provided and the luminance properties of the white paper
  • Input image are adjusted, whereby also the hue and the color saturation are corrected (correction step 303).
  • This adaptation normalizes the captured query image 300 and provides a corrected query image.
  • the trained CNN model is applied to the corrected query image and its interrogation signature 308 is computed (signature calculation 305).
  • Fifth, nearest neighbor software is used to find the most similar comparison signatures 309 of the query signature 308 (signature comparison 310).
  • the user is provided with a list of similar products, in which the product images of the greatest similarity to the query image 300 are displayed (product list display 311).
  • the disclosed method uses three types of images. at the first type are so-called "training images” (eg, 302 or 500) and these are used to train the CNN model Each training image contains a piece of white paper placed on the object of interest Training pictures was under different
  • Product images will not be modified and will be considered for processing in their original format.
  • the latter type is a so-called “query image” (eg, 300) .
  • This type of image is the image captured by the mobile camera, which is provided to either a mobile app or a web site interface.
  • the provided method looks for or supports visually similar products to a query object.
  • the visual search presented here is generic and can be applied to a wide variety of products, e.g. Clothing, household furniture or bathroom tiles. These different products can contain different patterns and materials that are different
  • Luminance influences to reduce the results of similarity search the user is prompted to do a
  • Color reference e.g. a piece of white paper on the
  • Content based image search is based on a comparison of image signatures in this example.
  • image signatures can be linked to a neural network, more specifically a CNN Model to be created. More meaningful for generation
  • the CNN model can be trained in advance. As part of this training will initially be a collection of
  • the training images can use different apparel materials with different visuals
  • each training image contains a piece of white paper, which is arranged on the object of interest (here: the T-shirt).
  • the training images 500 are under different
  • Light sources or generally different lighting conditions and the luminance of the training images 500 is corrected before training. Due to the fact that different clothing materials and different light sources are taken into account, a large collection of different training images 500 is created.
  • a database of comparison images 306 (e.g.
  • This product image database can, for. B. contain images of clothing articles. All images of the product should have a normalized appearance, ie in particular disturbing lighting effects should be eliminated have been. This can be done for example by means of a similar correction, which is provided for the query image.
  • comparison signature for example, in the form of a vector with 128
  • Floating point numbers Floating point numbers, and stored.
  • a database is constructed with comparison signatures, each comparison signature being associated with a comparison image (or in the application shown, a product image or a product), more precisely a corrected comparison image.
  • the provided custom approach can automatically capture a piece of white paper on any material of any pattern.
  • the piece of paper has sufficiently large dimensions and covers about 20-30% of the query image 801 (see Fig. 5).
  • the subject method may be arranged to automatically place the rectangular cutout 802 (the rectangle) containing the representation of the piece of paper or a part thereof within the query image 801 (see Fig. 5).
  • the image signal captured by the image sensor is stored as a query image and forwarded to a content-based image search (either locally or over a data network).
  • the reference 805 comprises two markings for the alignment of a vertical and a horizontal edge of the piece of white paper 101 functioning as a color reference
  • Markings is chosen so that the hint a
  • a new image Is obei (an edge image) is calculated.
  • This edge image is multiplied by a predefined mask image I mask and a sum S of all pixels is stored.
  • This procedure corresponds to an evaluation of the precalculated edge image with a predefined mask image.
  • the maximum values of these sums along the vertical and horizontal directions (corresponding to the vertical sliding window 804 and the horizontal sliding window 803, respectively) define the position of the white paper.
  • the automatic method for detecting the white paper is schematically illustrated in FIG.
  • Query image specified section is used for the subsequent correction. This can be for example
  • the luminance is adjusted and in particular the hue and color saturation of the query image corrected.
  • the query image 201 has a region 202 in which a piece of white paper is imaged.
  • the recorded query image exists
  • the average pixel value of the detected white rectangle is thus calculated separately for each color channel.
  • the average pixel values correspond to the color errors of the used section of the query image, which is assumed to be monochrome white. These average pixel values are then applied to the entire query image 201, thereby obtaining the corrected query image 204 in which the luminance is corrected, and thus corrects the hue and saturation of the interrogation object
  • the corrected query image 204 represents.
  • the RGB values of all pixels of the query image 201 are replaced by new RGB values R new , G new and B new given in equation (5).
  • the piece of white paper in the corrected query image thus contains white pixels.
  • the query image 201 more specifically, its
  • the query image is retrieved from a mobile camera or through a web page interface.
  • the non-white area (or more generally, the area outside the area used for the color correction) is recognized.
  • This non-white area 806 is shown in FIG. 8 with a stripe pattern marked. From this non-white area 806, a subpicture for the image search is extracted, for example, the largest possible contiguous rectangular section.
  • the extracted subpicture corresponds to
  • the corrected query image is propagated by at least one CNN that has previously been trained with training images.
  • the CNN model calculates, for example, a signature vector with 128 floating-point numbers as the interrogation signature.
  • This neighbor neighbor library uses the comparison signatures to create a
  • Structure is built, it is stored for later use for the search based on a query signature.
  • the software goes through the structure and calculates the most similar matches among the
  • Terminal 103 or it will be displayed on a web page.
  • Fig. 9 schematically shows a data processing apparatus according to the disclosed invention.
  • the device is an electronic device 901 (eg mobile telephone, tablet or laptop) which is equipped with various components and is connected to one or more antennas 900. It may also include one or more image sensors 902, optical systems 903, communication interfaces 904, or displays 905
  • the display 905 includes a user interface 906.
  • the electronic device further includes a memory 907 and a processor 908.
  • the processor 908 may include or may be configured to implement one or more of the processing steps described above, for example, in the form of components of a computer program product. Specifically, these components can be: an image winner 909 takes that
  • a white area detector 910 detects the piece of white paper in the captured query image
  • Luminance corrector 911 corrects the luminance, more precisely, the hue and the chroma of the query image
  • a CNN signature calculator 912 calculates a query signature based on the corrected one
  • a nearest neighbor estimator 913 finds the closest in a database of comparison signatures
  • a CNN trainer 914 may be configured to train the CNN model of the CNN signature calculator 912 by training images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

Computerimplementiertes Verfahren zur Vorbereitung oder Durchführung einer inhaltsbasierten Bildersuche, umfassend: Anzeigen eines von einem Bildsensor erfassten Bildsignals in Echtzeit; Gleichzeitiges Anzeigen eines Hinweises (805) auf einen für eine Farbreferenz optimalen Bildausschnitt des erfassten Bildsignals; und Weiterleiten eines zu einem Auslösezeitpunkt erfassten Bildsignals als Abfragebild (201) an eine inhaltsbasierte Bildersuche, sodass der Farbtons und/oder die Farbsättigung des Abfragebildes (201) korrigiert werden können und die inhaltsbasierte Bildersuche auf Grundlage des korrigierten Abfragebildes (204) durchgeführt werden kann.

Description

Inhaltsbasierte Bildersuche
Die Erfindung betrifft ein computerimplementiertes Verfahren zur Unterstützung oder zur Durchführung einer inhaltsbasierten
Bildersuche. Bei einer solchen Bildersuche wird auf Grundlage eines Abfragebildes oder Referenzbildes nach ähnlichen Bildern gesucht .
Eine Anwendung einer solchen Bildersuche ist die Suche nach visuell ähnlichen Produkten auf Grundlage eines dem Benutzer vorliegenden Produkts, wobei der Benutzer als Suchabfrage ein Foto des vorliegenden Produkts verwenden kann. Viele
Onlinehändler bieten bereits entsprechende Suchmaschinen an, mit denen man das kaum überblickbare Sortiment auf Grundlage eines Eingangsbilds eines Objekts durchsuchen kann. Dabei wird das aufgenommene Bild unbearbeitet z.B. über eine mobile App oder eine Webseitenschnittstelle übermittelt. Die auf Basis des übermittelten Abfragebildes erhaltenen Suchergebnisse,
beispielsweise in Form von Produktbildern, werden beispielsweise sortiert nach ihrer Ähnlichkeit mit dem Abfragebild angezeigt. Die Produktbilder sind dabei meist unter optimalen
Beleuchtungsbedingungen aufgenommen .
Inhaltsbasierte Systeme zur Suche von Bildern sind auf dem
Fachgebiet des maschinellen Sehens hinlänglich bekannt. Diese Systeme analysieren den Inhalt der zu vergleichenden Bilder (Vergleichsbilder) und nicht etwa nur den Bildern zugeordnete Metadaten, wie Schlüsselworte, Tags oder Beschreibungen. Der Inhaltsvergleich verwendet dabei beispielsweise Signaturen, die den einzelnen Bildern zugeordnet sind, und ein Abstandsmaß zwischen zwei Signaturen (weshalb die Signaturen teilweise auch als Vektoren bezeichnet werden) . Für eine effiziente Suche werden zunächst die Signaturen (Vergleichssignaturen) der
Vergleichsbilder ermittelt und gespeichert. Im Fall einer
Abfrage wird die Signatur des Abfragebildes (d. h. die
Abfragesignatur) berechnet davon ausgehend die Entfernung zwischen den Vergleich Signaturen und der Abfragesignatur ermittelt. Die ähnlichsten Vergleichsbildern sind dann jene mit der kleinsten Entfernung; diese werden als Suchergebnis angezeigt .
Die Signaturen können unter Verwendung verschiedener Verfahren berechnet werden. Die Signatur eines Bildes wird dabei
regelmäßig von der Farbe, Form und Struktur des Bildinhalts abhängen. Diese können beispielsweise als lokale Merkmale nach verschiedenen Verfahren berechnet werden. Verwendbare Verfahren sind beispielsweise Scale-invariant feature transform (SIFT) , Speeded up robust features (SURF) , Oriented Fast and Rotated BRIEF (ORB) und Fast Retina Keypoint (FREAK) . Im Fall einer sehr großen Anzahl von Vergleichsbildern mit entsprechenden
Vergleichssignaturen können zur effizienten Suche innerhalb der Vergleichssignaturen verschiedene Suchstrategien angemeldet werden, beispielsweise mit Klassifikationsschemata.
Eine weitere Möglichkeit zu Ermittlung der Signaturen ist die Verwendung von neuronalen Netzwerken, insbesondere Convolutional Neural Networks (CNNs) . Diese können mit einer großen Menge von annotierten Daten (in der Regel Bilddaten mit Angaben zum
Bildinhalt) trainiert werden und entwickeln dadurch autonom geeignete Parameter für den Bildinhalt, die in weiterer Folge als Signatur verwendet werden können. Besonders erfolgreich wurden parallele Netzwerke für die Ermittlung charakteristischer Signaturen eingesetzt: beispielsweise siamesische Netze oder Triplet-Netze (siehe z.B. Hoffer E. et al, "Deep Metrie Learning Using Triplet Network" in: Feragen A. et al (eds) „Similarity- Based Pattern Recognition", Lecture Notes in Computer Science, vol 9370. Springer, 2015. Oder Balntas V. et al, "Learning local feature descriptors with triplets and shallow convolutional neural networks", British Machine Vision Conference, 2016.) .
Vorhandene Suchmaschinen vernachlässigen jedoch die
Beleuchtungsbedingungen des Abfragebildes. Für eine präzise und reproduzierbare Suchergebnisse ist es daher erforderlich, die Beleuchtungsbedingungen bei der Aufnahme des Abfragebildes zu steuern und ein normiertes Aussehen des Objekts zu
gewährleisten. In der Praxis ist es jedoch sehr schwierig, derartige Bedingungen zu erreichen. Die Verwendung von Bildern, die unter verschiedenen Lichtquellen aufgenommen wurden (z. B. direktes Sonnenlicht im Freien oder Halogenlicht in
Innenräumen) , führt zu unterschiedlichen und im Allgemeinen falschen Suchergebnissen. Der Grund dafür ist, dass
unterschiedliche Beleuchtungsbedingungen das Aussehen des betrachteten Materials verändern. Das Ändern des verfügbaren Szenenlichts, um normierte Bedingungen zu erreichen, oder das manuelle Korrigieren des aufgenommenen Bildes würden vom
Benutzer ein tiefgreifendes Fachwissen und viel Zeit erfordern, was bei einer Anwendung, die auf eine große Zielgruppe
ausgerichtet ist, nicht realistisch ist.
Es ist grundsätzlich bekannt, die Helligkeit und den Kontrast von Bildern automatisch anzupassen. Ein solches Verfahren ist beispielsweise in CN 202036474 A gezeigt. Dieses Verfahren zielt darauf ab, zu geringe Helligkeit oder Überbelichtung bei
aufgenommenen Bildern zu vermeiden. Zu diesem Zweck wird ein neuronales Netzwerk mit Trainingsbildern trainiert, deren
Helligkeit und Kontrast jeweils manuell angepasst wurde. Die technische Anwendung einer solchen Korrektur zur Vorbereitung einer Bildersuche ist jedoch nicht beschrieben.
Choi et al beschreiben in "Two-step Learning of Deep
Convolutional Neural Network for Discriminative Face Recognition under Varying Illumination" (Electronic Imaging, Imaging and Multimedia Analytics in a Web and Mobile World 2016, pp. 1- 5(5) .) ein Verfahren, bei dem Beleuchtungsmuster in
Gesichtsbildern mit einem entsprechend trainierten neuronalen Netzwerk erkannt und kompensiert werden können, um die
Genauigkeit eines nachfolgenden Gesichtsvergleiches zu erhöhen. Eine Anwendbarkeit dieses Verfahrens auf andere Bildinhalte kann daraus nicht abgeleitet werden. Wie das zuvor erwähnte Verfahren wird das Bild auf Basis des gesamten Bildinhalts geändert, wobei es dem neuronalen Netzwerk überlassen ist bzw. von dessen
Training abhängt, welcher Art diese Änderungen sind (zum
Beispiel Anpassung von Helligkeit und Kontrast) .
Im Zusammenhang mit einer Objekterfassung und 3-D-Posen
Schätzung offenbart die WO 2017/155602 Al ein Verfahren zur Normalisierung von Bildern oder Bildausschnitten mit Unterstützung eines eigens dafür vorgesehenen neuronalen Netzwerks. Dabei ist jedoch nur die Normalisierung der
Helligkeit beschrieben. Im Anschluss daran erfolgt eine
Objekterkennung mit einem weiteren neuronalen Netzwerk auf Basis der normalisierten Bildinformationen.
Die gegenständliche Erfindung beruht auf der Erkenntnis, dass insbesondere bei der Anwendung für eine Produktsuche,
beispielsweise für Bekleidung, bekannte Verfahren nur
unbefriedigende Ergebnisse liefern, weil der Farbton und die Farbsättigung der Vergleichsbilder nicht geeignet berücksichtigt wird .
Es ist eine Aufgabe der Erfindung, ein Verfahren vorzuschlagen, dass eine Bildersuche mit einer höheren Genauigkeit hinsichtlich der Übereinstimmung von Farbton und/oder Farbsättigung
ermöglicht .
Die Erfindung sieht ein computerimplementiertes Verfahren vor, umfassend :
Anzeigen eines von einem Bildsensor erfassten Bildsignals in Echtzeit (z.B. als „live" Vorschau oder „Live-View" ) ;
Gleichzeitiges Anzeigen eines Hinweises auf einen für eine Farbreferenz optimalen Bildausschnitt des erfassten Bildsignals;
Weiterleiten eines zu einem Auslösezeitpunkt erfassten
Bildsignals als Abfragebild (oder Referenzbild) an eine
inhaltsbasierte Bildersuche.
Der Auslösezeitpunkt kann manuell oder automatisch gewählt werden. Denkbar wäre beispielsweise ein automatisch gewählter Auslösezeitpunkt, sobald eine geeignete Bildschärfe und eine geeignete Farbreferenz erkannt werden. Das Weiterleiten kann beispielsweise umfassen: Übertragen des Abfragebildes (oder eines korrigierten Abfragebildes) über ein Computernetzwerk (insbesondere kabellos, beispielsweise über ein Mobilnetz) an einen Dienst für inhaltsbasierte Bildersuche. Im Anschluss an die inhaltsbasierte Bildersuche kann das Verfahren weiter umfassen: Anzeigen von Treffern der inhaltsbasierten
Bildersuche . Das Verfahren bietet somit eine technische Hilfestellung bei der Erstellung eines Abfragebildes, das neben dem gesuchten Produkt eine Farbreferenz enthält. Diese Farbreferenz kann somit
vorteilhaft zur Korrektur das Farbtons und/oder der
Farbsättigung des aufgenommenen Abfragebildes verwendet werden, wie weiter unten genauer ausgeführt wird. Der Hinweis bietet dem Benutzer eine technische Zusatzinformation, die ihn
beispielsweise über eine geeignete Fläche und/oder Form und/oder Anordnung der Farbreferenz unterrichtet und ihn somit in die Lage versetzt, eine für die anschließende Bildersuche geeignetes Abfragebild zu erstellen.
Optional kann der Hinweis mindestens eine Markierung für die Ausrichtung mindestens einer Kante der Farbreferenz umfassen. Insbesondere kann die Markierung die Anordnung und Ausrichtung einer rechteckigen Farbreferenz Vorgehen, beispielsweise in einem vordefinierten Eck des Abfragebildes, etwa im linken unteren Eck des Abfragebildes (in diesem Fall könnte die
Markierung links unten in der Live-View angezeigt werden) .
Gemäß einem Ausführungsbeispiel kann der Hinweis eine Fläche für den optimalen Bildausschnitt definieren, wobei die Fläche zwischen 15 % und 35 % der Bildfläche des erfassten Bildsignals einnimmt, vorzugsweise zwischen 20 % und 30 %, insbesondere etwa 25 %. Es wäre beispielsweise denkbar, dass der Hinweis optimale Eckpunkte und/oder Kanten für die Farbreferenz markiert, oder einer Warnung oder Rückmeldung entspricht, die ausgegeben wird, falls die Farbreferenz eine zu kleine und/oder zu große Fläche in Bezug auf die Gesamtfläche des Bildsignals einnimmt.
Das offenbarte Verfahren kann insbesondere folgende Schritte umfassen :
Korrigieren des Farbtons und/oder der Farbsättigung des Abfragebildes (oder Referenzbildes);
Durchführen einer inhaltsbasierten Bildersuche auf Grundlage des korrigierten Abfragebildes.
Ein Verfahren mit diesen beiden Schritten kann auch unabhängig von den zuvor beschriebenen Schritten verwendet werden, um eine Verbesserung der Bildersuche zu erzielen. Die Erfindung erstreckt sich auch allgemein auf einem Computer implementiertes Verfahren umfassend: Korrigieren des Farbtons und/oder der
Farbsättigung eines Abfragebildes; und Durchführen einer
inhaltsbasierten Bildersuche auf Grundlage des korrigierten Abfragebildes. Ein solches Verfahren kommt ohne Bildsensor und ohne Hinweis aus und mit einem von einer beliebigen Quelle bereitgestellten (unkorrigierten) Abfragebild.
In diesem Zusammenhang kann insbesondere vorgesehen sein, dass das Durchführen einer inhaltsbasierten Bildersuche auf Grundlage des korrigierten Abfragebildes umfasst: Propagieren des
korrigierten Abfragebildes durch mindestens ein neuronales Netzwerk, das mit Trainingsbildern trainiert ist, zur Ermittlung einer Abfragesignatur aus dem korrigierten Abfragebild;
Ermitteln einer Ähnlichkeit des Abfragebildes mit mindestens zwei Vergleichsbildern auf Basis der Abfragesignatur und den Vergleichsbildern jeweils zugeordneten Vergleichssignaturen; Bereitstellen einer Auswahl der Vergleichsbilder auf Basis der ermittelten Ähnlichkeit mit dem Abfragebild. Die bereitgestellte Auswahl kann z.B. in Form einer Liste, insbesondere einer geordneten Liste, oder in Form einer Sortierung, d.h. Auswahl für ersten Platz, für zweiten Platz etc., vorliegen.
Speziell im Zusammenhang mit einer solchen Verwendung eines neuronalen Netzwerkes wäre es denkbar, dass die
Vergleichssignaturen auf Grundlage von korrigierten
Vergleichsbildern ermittelt wurden, wobei die Korrektur der Vergleichsbilder jener des Abfragebildes entspricht. D.h. die Vergleichsbilder durchlaufen vor der Ermittlung der Vergleich Signaturen den Schritt: Korrigieren des Farbtons und/oder der Farbsättigung. Auf Basis der so korrigierten Vergleichsbilder werden anschließend die Vergleichssignaturen, z.B. durch
propagieren der korrigierten Vergleichsbilder durch mindestens ein neuronales Netzwerk, ermittelt.
Das Korrigieren des Farbtons und/oder der Farbsättigung des Abfragebildes kann optional umfassen: Ermitteln eines
Farbfehlers aus einem Ausschnitt des Abfragebildes. Der Fahrfehler wird somit auf Grundlage nur eines Teils der Bilddaten ermittelt, beispielsweise eines Teils mit weniger als 90 % in Bezug auf die Bildfläche, insbesondere weniger als 50 %. Der betreffende Ausschnitt des Abfragebildes kann beispielsweise eine Farbreferenz enthalten.
In diesem Zusammenhang kann vorgesehen sein, dass zum Ermitteln des Farbfehlers der verwendete Ausschnitt des Abfragebildes als einfarbig angenommen wird. Besondere kann die Ermittlung des Fahrfehlers mit der Annahme arbeiten, dass die im verwendeten Ausschnitt abgebildete Farbe Weiß ist. Somit entspricht eine Abweichung der durch die Bilddaten repräsentierten Farbe von der angenommenen Farbe (z.B. weiß) dem zu ermittelnden Farbfehler.
Weiters kann ein Mittelwert des Farbtons und/oder der
Farbsättigung innerhalb des Ausschnitts berechnet werden und auf Grundlage des berechneten Mittelwerts ein Korrekturfaktor für den Farbton und/oder für die Farbsättigung ermittelt werden, mit dem mindestens ein Teil des Abfragebildes korrigiert wird.
Beispielsweise kann mit dem Korrekturfaktor zumindest der Teil außerhalb des Ausschnitts korrigiert werden oder das gesamte Abfragebild. Der Korrekturfaktor wird dabei so gewählt, dass im korrigierten Abfragebild die von den korrigierten Bilddaten repräsentierte Farbe im Bereich des Ausschnitts im Mittel zumindest hinsichtlich des Farbtons oder der Farbsättigung der erwarteten Farbe der Farbreferenz entspricht (z.B. weiß) .
Der für die Ermittlung des Farbfehlers zu verwendende Ausschnitt kann unabhängig vom Inhalt des Abfragebildes vorgegeben sein, beispielsweise ein Rechteck mit einer vordefinierten Fläche in einem vordefinierten Eck des Abfragebildes.
Alternativ kann vorgesehen sein, dass das gegenständliche
Verfahren zusätzlich umfasst: Durchführen einer Kantenerkennung (z.B. mit dem Sobel-Operator) innerhalb des Abfragebildes und Festlegen des für die Ermittlung des Farbfehlers zu verwendenden Ausschnitts auf Grundlage des Ergebnisses der Kantenerkennung. Beispielsweise kann der Ausschnitt innerhalb der erkannten
Kanten festgelegt werden oder es kann eine geeignete, von den Kanten begrenzte Fläche nach der Nähe zu einem optimalen
(relativen) Flächeninhalt (siehe oben) festgelegt werden. Mit anderen Worten wird eine von Kanten oder dem Bildrand umgebene Fläche als Ausschnitt für die Ermittlung des Farbfehlers erkannt, deren Fläche für diese Ermittlung geeignet ist. Durch einen etwaigen bei der Erstellung des Abfragebildes angezeigten Hinweises kann sichergestellt werden, dass eine entsprechende Fläche vorhanden und erkennbar ist.
Zur Vereinfachung der weiteren Bearbeitung, insbesondere zur Erhöhung der Effizienz hinsichtlich Datenverbrauch und
Rechenleistung, kann vorgesehen sein, dass das korrigierte
Abfragebild die Bilddaten des Abfragebildes ohne den für die Ermittlung des Farbfehlers verwendeten Ausschnitt umfasst.
Dadurch kann insbesondere die Ermittlung der Abfragesignatur vereinfacht und beschleunigt werden.
Die Erfindung betrifft außerdem eine Vorrichtung zur
Datenverarbeitung, umfassend Mittel zur Ausführung des
Verfahrens nach eine der vorstehend beschriebenen Varianten und Optionen, insbesondere mit den der Korrektur des Farbtons und/oder der Farbsättigung vorgelagerten Schritte. Weiters umfasst die Erfindung auch ein System zur Datenverarbeitung, umfassend eine solche Vorrichtung sowie Mittel zur Ausführung der zusätzlichen Schritte des vorstehend beschriebenen
Verfahrens, insbesondere betreffend die Korrektur des Farbtons und/oder der Farbsättigung und daran anschließende Schritte.
Darüber hinaus betrifft die Erfindung auch allgemein ein System umfassend Mittel zur Ausführung der Schritte des Verfahrens betreffend die Korrektur des Farbtons und/oder der Farbsättigung des Abfragebildes und daran anschließende Schritte gemäß einer der oben beschriebenen Varianten und Optionen. D.h. die Schritte Anzeigen und Weiterleiten müssen von diesem System nicht
notwendigerweise implementiert sein.
Schließlich betrifft die Erfindung auch ein
Computerprogrammprodukt, umfassend Befehle, die bei der
Ausführung des Programms durch einen Computer diesen veranlassen, das vorstehend beschriebene Verfahren auszuführen, d. h. gemäß einer der oben beschriebenen Varianten und optional mit einer oder mehreren der angeführten Optionen.
Die Erfindung wird nachfolgend anhand von besonders bevorzugten Ausführungsbeispielen, auf die sie jedoch nicht beschränkt sein soll, und unter Bezugnahme auf die Zeichnungen noch weiter erläutert. Die Zeichnungen zeigen im Einzelnen:
Fig. 1 schematisch eine Anwendung des gegenständlichen
Verfahrens zur Produktsuche für ein Kleidungsstück;
Fig. 2 beispielhafte Bilddaten von einem Überblick, einem Abfragebild und einem korrigierten Abfragebild im Zusammenhang mit der in Fig. 1 gezeigten Anwendung;
Fig. 3 schematisch ein Ablaufdiagramm für eine Produktsuche gemäß Fig. 1 einschließlich einer Vorbereitung auf Basis von Trainingsbildern und Vergleichsbildern;
Fig. 4 schematisch ein beispielhaftes Netzwerk-Modell zur Anwendung in dem Verfahren gemäß Fig. 3;
Fig. 5 schematisch ein Verfahren zur automatischen Erkennung eines Ausschnitts des Abfragebildes zur Verwendung als
Farbreferenz ; und
Fig. 6 schematisch ein elektronisches Gerät zur Verwendung in der Anwendung gemäß Fig. 1.
Wie in Fig. 1 abgebildet, kann die offenbarte Erfindung in einem Verfahren zum Finden ähnlicher Produktartikel unter Verwendung eines Bildes angewendet werden. Wenn ein Stück weißen Papiers 101 auf dem Abfrageobjekt 100 angeordnet wird, erfasst das bereitgestellte Verfahren dieses Papiers automatisch und passt die Leuchtdichteeigenschaften, insbesondere den Farbton und/oder die Farbsättigung, des aufgenommenen Abfragebildes an.
Anschließend wird ein trainiertes Modell eines Convolutional Neural Network (CNN) angewendet, um eine Abfragesignatur des Abfragebildes zu berechnen. Diese Abfragesignatur wird mit
Vergleichssignaturen verglichen, die in einer
Vergleichssignaturdatenbank gespeichert sind, und die visuell ähnlichsten Artikel werden dem Benutzer am Endgerät 103
angezeigt . Diese Anwendung ermöglicht Benutzern, nach visuell ähnlichen Artikeln zu suchen, während automatisch farbverzerrende
Einflüsse der vorhandenen Lichtquellen korrigiert werden. Dies ist in Fig. 2 genauer illustriert. Darin wird ein störender Einfluss einer Halogenlichtquelle auf ein weißes T-Shirt 100 in der Überblicksansicht 200 dargestellt. Für die Suche nach ähnlichen Artikeln nimmt der Benutzer zunächst ein Abfragebild 201 auf. Dabei legt er - geführt durch das mobile Endgerät 102 und den darauf angezeigten Hinweis (siehe Fig. 1) - ein Stück weißes Papier 101 auf das weiße T-Shirt 100. Im Abfragebild 201 entspricht das weiße Papier 101 dem Bereich 202. In dem in Fig.
2 dargestellten Beispiel ist die von den Bilddaten
repräsentierte Farbe im Bereich (oder Ausschnitt) 202 allerdings nicht weiß, sondern hat folgende farbliche Zusammensetzung: rot 140/255, grün 137/255 und blau 132/255. Bei einer korrekten Darstellung müssten alle drei Farbkanäle den Wert 255/255 aufweisen. Gemäß dem offenbarten Verfahren wird der Farbton und die Farbsättigung sowie allgemein die Leuchtdichte korrigiert und ein korrigiertes Abfragebild 204 erhalten. Nachdem eine Korrektur des Farbtons und der Farbsättigung angewendet wurde, ist das Aussehen dieses weißen T-Shirts im korrigierten
Abfragebild 204 korrekt, d. h. der Bereich 202 wird nun
tatsächlich weiß dargestellt.
Fig. 3 zeigt schematisch das gegenständliche Verfahren sowie ein Trainingsverfahren zur Vorbereitung des neuronalen Netzwerks, welches zur Signaturberechnung verwendet wird. Der Aufbau des Netzwerk-Modells ist genauer in Fig. 4 dargestellt besteht in diesem Beispiel aus drei parallelen Convolutional Neural
Networks (CNNs) 501-503, die über eine Triplett-Loss-Funktion 507 kombiniert werden. Die drei CNNs 501-503 können dabei die gleiche innere Struktur aufweisen. Als Netzwerk-Struktur kann beispielsweise die folgende Architektur verwendet werden:
1. 2D Faltung: Eingangskanäle=3 , Ausgangskanäle=32 , Kernel= 7
2. Tangens hyperbolicus
3. 2D Max-Pooling: Kernel=2, Stride=2
4. 2D Faltung: Eingangskanäle=32 , Ausgangskanäle=64 , Kernel=6
5. Tangens hyperbolicus
6. Lineare Transformation: Eingangsmerkmale=4096, Ausgangsmerkmale=128
7. Tangens hyperbolicus
Der Einfachheit halber wird im Zusammenhang mit Fig. 3 allgemein von einem CNN-Modell gesprochen, wobei Fig. 3 im Wesentlichen sechs Verarbeitungsschritte zeigt. Erstens wird ein
vordefiniertes benutzerspezifisches CNN-Modell mit einer Reihe von Trainingsbildern 302 trainiert (Trainingsschritt 304) . Bei dem Training wurde die „Triplet Margin Löss" Funktion verwendet:
Figure imgf000013_0001
Dabei ist a der Anchor, p ein positives Beispiel (d.h. ein dem Anchor-Bild ähnliches Bild) und n ein negatives Beispiel (d.h. ein vom Anchor-Bild verschiedenes Bild) ; a±, p± und n± sind die so genannten Signaturen des Anchors, des positiven Beispiels bzw. des negativen Beispiels, d.h. in diesem Ausführungsbeispiel sind a±, p± und n± Vektoren der Dimension 128, die den
Ausgangsmerkmalen des CNN entsprechen, nachdem das jeweilige Bild (genauer: ein extrahiertes Sample außerhalb des bekannten Bereichs der Farbreferenz ) durch das CNN propagiert wurde;
margin ist z.B. gleich 2,0. Die Distanz d zwischen zwei
Signaturen x± und y± ist definiert als: ·„jy) = // * -y l 2
(2)
Die Trainingsbilder 302 werden von beliebigen Produktartikeln mit normiertem Aussehen aufgenommen. Sie sind hinsichtlich der Leuchtdichte bereits korrigiert, wobei die Position der
Farbreferenz beispielsweise manuell annotiert wurde und die Korrektur auf Basis der so identifizierten Farbreferenz nach dem hier beschriebenen Verfahren durchgeführt wurde. Die Triplets (a, p, n) , mit denen das CNN-Modell trainiert wird, sind
beispielsweise manuell zusammengestellt.
Zu Beginn des Trainings wird das CNN-Modell mit initialen
Gewichten geladen (siehe z.B. „Understanding the difficulty of training deep feedforward neural networks", Xavier Glorot & Yoshua Bengio, Proceedings of the Thirteen International
Conference on Artificial Intelligence and Statistics, PLMR
9:249-256, 2010.) . Das Training ist anschließend in „Epochen" gegliedert, wobei in jeder Epoche alle Trainings-Triplets verwendet werden. Auf Basis der dabei erzielten Werte des Loss- Funktion (siehe Gleichung (1)) werden die Gewichte im CNN-Modell korrigiert. Das Training endet beispielsweise nach einer
vordefinierten Anzahl von Epochen. Mit einer zusätzlichen
Sammlung von Testbildern kann überwacht werden, ob die
Genauigkeit beim Training steigt. Ein Trainingsdatensatz kann beispielsweise Trainingsbilder und Testbilder im Verhältnis 85:15 aufweisen.
Nachdem das Training abgeschlossen ist, wird das trainierte CNN- Modell auf Vergleichsbilder 306 aus einer Produktdatenbank angewendet. Für jedes Vergleichsbilder wird dessen Signatur berechnet und die so erhaltenen Vergleichssignaturen 309 werden gespeichert (Signaturberechnung 307) . Zweitens wird davon ausgegangen, dass das Abfragebild 300 von einer mobilen Kamera ein Stück weißen Papiers enthält. Dieses Stück weißen Papiers, genauer der dem weißen Papier entsprechende Ausschnitt des
Abfragebildes 300, wird automatisch erfasst (Erfassungsschritt 301) . Drittens wird die erfasste Position des weißen Papiers bereitgestellt und die Leuchtdichteeigenschaften des
Eingangsbildes werden angepasst, wobei auch der Farbton und die Farbsättigung korrigiert werden (Korrekturschritt 303) . Diese Anpassung normiert das aufgenommene Abfragebild 300 und liefert ein korrigiertes Abfragebild. Viertens wird das trainierte CNN- Modell auf das korrigierte Abfragebild angewendet und dessen Abfragesignatur 308 wird berechnet (Signaturberechnung 305) . Fünftens wird eine Nächste-Nachbarn-Software verwendet, um die ähnlichsten Vergleichssignaturen 309 der Abfragesignatur 308 zu finden (Signaturvergleich 310) . Im letzten Schritt wird dem Benutzer eine Liste mit ähnlichen Produkten bereitgestellt, in der die Produktbilder der größten Ähnlichkeit zu dem Abfragebild 300 angezeigt werden (Produktlistenanzeige 311) .
Das offenbarte Verfahren verwendet drei Arten von Bildern. Bei der ersten Art handelt es sich um sogenannte „Trainingsbilder" (z. B. 302 oder 500) und diese werden zum Trainieren des CNN- Modells eingesetzt. Jedes Trainingsbild enthält ein Stück weißen Papiers, das auf dem interessierenden Objekt angeordnet ist. Das Aufnehmen dieser Trainingsbilder wurde unter verschiedenen
Lichtquellen wiederholt. Bei der zweiten Art handelt es sich um sogenannte „Vergleichsbilder" (bei der hier beschriebenen
Anwendung genauer „Produktbilder", z. B. 306) und diese werden z. B. von einem Online-Händler bereitgestellt. An diesen
Produktbildern werden keine Änderungen ausgeführt und sie werden zum Verarbeiten in ihrem Originalformat in Betracht gezogen. Bei der letzten Art handelt es sich um ein sogenanntes „Abfragebild" (z. B. 300) . Diese Art von Bild ist das von der mobilen Kamera aufgenommene Bild, das entweder einer mobilen App oder einer Website-Schnittstelle bereitgestellt wird.
Das bereitgestellte Verfahren sucht beispielsweise nach visuell ähnlichen Produkten zu einem Abfrageobjekt oder unterstützt eine solche Suche. Die hier vorgestellte visuelle Suche ist generisch und kann auf eine große Auswahl an Produkten angewendet werden, z.B. Kleidungsstücke, Haushaltsmöbel oder Badezimmerfliesen . Diese unterschiedlichen Produkte können verschiedene Muster und Materialien enthalten, die verschiedene
Leuchtdichteeigenschaften unter verschiedenen Lichtquellen in Innenräumen oder im Freien aufweisen. Um diese störenden
Leuchtdichteeinflüsse auf die Ergebnisse der Ähnlichkeitssuche zu verringern, wird der Benutzer aufgefordert, eine
Farbreferenz , z.B. ein Stück weißen Papiers, auf dem
Abfrageobjekt anzuordnen.
Im Folgenden werden die im Zusammenhang mit Fig. 3 bereits grob beschriebenen Verfahrensschritte und Vorgänge noch näher
erläutert :
1. Trainieren eines CNN-Models
Die inhaltsbasierte Bildersuche basiert in diesem Beispiel auf einem Vergleich von Bildsignaturen. Diese Bildsignaturen können beispielsweise mit einem neuronalen Netzwerk, genauer einem CNN- Modell erstellt werden. Für die Erzeugung aussagekräftiger
Signaturen kann das CNN-Modell im Vorfeld trainiert werden. Im Rahmen dieses Trainings wird zunächst eine Sammlung von
Trainingsbildern 500 erstellt. Bei der hier besprochenen
Anwendung können die Trainingsbilder beispielsweise verschiedene Bekleidungsmaterialien mit unterschiedlichen visuellen
Eigenschaften darstellen. Wie am Beispiel des T-Shirts gezeigt, enthält jedes Trainingsbild ein Stück weißen Papiers, das auf dem interessierenden Objekt (hier: dem T-Shirt) angeordnet ist. Die Trainingsbilder 500 werden unter unterschiedlichen
Lichtquellen bzw. allgemein unterschiedlichen Lichtbedingungen aufgenommen und die Leuchtdichte der Trainingsbilder 500 wird vor dem Training korrigiert. Aufgrund der Tatsache, dass verschiedenartige Bekleidungsmaterialien und unterschiedliche Lichtquellen berücksichtigt werden, wird eine große Sammlung von verschiedenen Trainingsbildern 500 erstellt.
Für die Trainingsaufgabe wird dem CNN-Modell eine große Sammlung von Trainingsbildern 500 übergeben. Es wird empfohlen, über eine zusätzliche Testsammlung von Bildern (Testbildern) zu verfügen, um den Fortschritt des Trainings zu überwachen. Nachdem das Training abgeschlossen ist, wird das CNN-Modell für den späteren Einsatz gespeichert. Es hat sich gezeigt, dass der kürzlich eingeführte Algorithmus der „Triplet"-CNNs (501, 502 und 503, in Fig. 4) ein geeignetes Instrument und Modell für
Ähnlichkeitssuchaufgaben ist. Die Berechnung von
Signaturdeskriptoren 504, 505, 506 und die Auswahl der
„Triplet"-Loss-Funktion 507 ist von Balntas et al veröffentlicht (Balntas V., Riba E., Ponsa D., Mikolajczyk K., "Learning local feature descriptors with triplets and shallow convolutional neural networks", British Machine Vision Conference, 2016.) .
Nachdem das Training des CNN-Modells abgeschlossen ist, wird eine Datenbank mit Vergleichsbildern 306 (z.B.
Produktbilddatenbank) mit dem trainierten CNN-Modell
verarbeitet. Diese Produktbilddatenbank kann z. B. Bilder von Kleidungsartikeln enthalten. Dabei sollten alle Bilder des Produktes über ein normiertes Aussehen verfügen, d. h. es sollten insbesondere störende Beleuchtungseinflüsse eliminiert worden sein. Dies kann beispielsweise mittels einer ähnlichen Korrektur geschehen, die für das Abfragebild vorgesehen ist. Unter Verwendung des vorher trainierten CNN-Modells wird
anschließend von jedem Bild eine Vergleichssignatur erstellt, die beispielsweise in Form eines Vektors mit 128
Gleitkommazahlwerten vorliegen kann, und gespeichert. Auf diese Weise wird eine Datenbank mit Vergleichssignaturen aufgebaut, wobei jede Vergleichssignatur einem Vergleichsbild (bzw. in der gezeigten Anwendung einem Produktbild oder einem Produkt) zugeordnet ist, genauer einem korrigierten Vergleichsbild.
2. Automatische Erfassung der Farbreferenz
Der bereitgestellte kundenspezifische Ansatz kann automatisch ein Stück weißen Papiers auf einem beliebigen Material mit einem beliebigen Muster erfassen. Für eine zuverlässige und
reproduzierbare Korrektur des Farbtons und/oder der
Farbsättigung ist es zweckmäßig, wenn das Stück des Papiers ausreichend große Abmessungen aufweist und ungefähr 20-30 % des Abfragebildes 801 abdeckt (siehe Fig. 5) . Das gegenständliche Verfahren kann eingerichtet sein, um den rechteckigen Ausschnitt 802 (das Rechteck) , welcher die Darstellung des Papierstücks oder eines Teils davon enthält, automatisch innerhalb des
Abfragebildes 801 zu erfassen, wobei das Abfragebild 801 vom Benutzer mit dem mobilen Endgerät 800 unter Beachtung des
Hinweises 805 erfasst wurde. Dabei wird der Hinweis 805 auf einen für eine farbreferenzoptimalen Bildausschnitt des
erfassten Bildsignals gleichzeitig mit dem von einem Bildsensor des Endgeräts 800 erfassten Bildsignal in Echtzeit angezeigt. Entweder durch einen automatischen Auslöser oder sobald der Benutzer auf einen manuellen Auslöser 807 drückt, wird das vom Bildsensor erfasste Bildsignal als Abfragebild gespeichert und an eine inhaltsbasierte Bildersuche weitergeleitet (entweder lokal oder über ein Datennetzwerk) . Der Hinweis 805 umfasst im gezeigten Beispiel zwei Markierungen für die Ausrichtung einer senkrechten und einer waagrechten Kante des als Farbreferenz fungierenden Stücks weißen Papiers 101. Die Anordnung der
Markierungen ist dabei so gewählt, dass der Hinweis einen
Ausschnitt mit einer Fläche von 25 % des gesamten Bildsignals markiert .
Wie in Gleichung (3) beschrieben, wird unter Verwendung anerkannten Erkennung, beispielsweise des Sobel-Operators , ein neues Bild Isobei (ein Kantenbild) berechnet. Dieses Kantenbild wird mit einem vordefinierten Maskenbild Imask multipliziert und eine Summe S aller Pixel gespeichert. Diese Vorgangsweise entspricht einer Bewertung des vorberechneten Kantenbildes mit einem vordefinierten Maskenbild. Die Maximalwerte dieser Summen entlang der senkrechten und waagerechten Richtung (entsprechend dem senkrechten gleitenden Fenster 804 bzw. dem waagerechten gleitenden Fenster 803) definieren die Position des weißen Papiers. Das automatische Verfahren zur Erfassung des weißen Papiers ist in Fig. 5 schematisch illustriert.
Figure imgf000018_0001
Alternativ zur hier beschriebenen automatischen Erfassung kann vorgesehen sein, dass ein unabhängig vom Inhalt des
Abfragebildes vorgegebener Ausschnitt für die nachfolgende Korrektur verwendet wird. Dies kann beispielsweise ein
geringfügig kleinerer Teil des durch den Hinweis 805 markierten Bildausschnitts sein, um den Einfluss von geringen
Ausrichtungsfehlern im Kantenbereich zu reduzieren.
3. Automatische Anpassung der Leuchtdichte
Nachdem das weiße Papier erfolgreich erfasst wurde, wird die Leuchtdichte angepasst und insbesondere der Farbton und die Farbsättigung des Abfragebildes korrigiert. Wie in Fig. 2 abgebildet, wird davon ausgegangen, dass das Abfragebild 201 einen Bereich 202 aufweist, in dem ein Stück weißen Papiers abgebildet wird. Das aufgenommene Abfragebild besteht
beispielsweise aus drei Farbkanälen (R - rot, B - blau, G - Grün) . Zur Ermittlung von Korrekturfaktoren für die einzelnen Farbkanäle wird pro Farbkanal (R, G, B) ein mittlerer Pixelwert ( R , G , B ) innerhalb des Bereichs 202 (entsprechend einem Ausschnitt des Abfragebildes 201) berechnet, gemäß Gleichung (4), wobei n die Anzahl der Pixel im Bereich 202 ist:
Figure imgf000019_0001
Der mittlere Pixelwert des erfassten weißen Rechtecks wird somit für jeden Farbkanal separat berechnet. Die mittleren Pixelwerte entsprechen den Farbfehlern des verwendeten Ausschnitts des Abfragebildes, welcher als einfarbig weiß angenommen wird. Diese mittleren Pixelwerte werden dann auf das gesamte Abfragebild 201 angewendet, wodurch das korrigierte Abfragebild 204 erhalten wird, bei dem die Leuchtdichte berichtigt ist und das somit den Farbton und die Farbsättigung des Abfrageobjekts korrekt
darstellt. Um das korrigierte Abfragebild 204 zu erhalten, werden die RGB-Werte aller Pixel das Abfragebildes 201 durch neue RGB-Werte Rnew, Gnew und Bnew ersetzt, die in Gleichung (5) angegeben sind. Das Stück weißen Papiers in dem korrigierten Abfragebild enthält folglich weiße Pixel.
R„ew = 255 * R/ R, Gnew = 255 * G i G and Bnew - 255 * B / B
(5)
Dementsprechend wird das Abfragebild 201, genauer dessen
Farbkanäle, mit den folgenden Korrekturfaktoren korrigiert:
255/ R , 255/ G , 255/ B
4. Berechnung der Abfragesignatur
Das Abfragebild wird von einer mobilen Kamera oder durch eine Webseiten-Schnittstelle abgerufen. In diesem Bild wird, nachdem die Farbreferenz erfasst wurde und die Leuchtdichte angepasst wurde, indem Farbton und Farbsättigung korrigiert wurden, der nicht-weiße Bereich (oder allgemein der Bereich außerhalb des für die Farbkorrektur verwendeten Ausschnitts) erkannt. Dieser nicht-weiße Bereich 806 ist in Fig. 8 mit einem Streifenmuster markiert. Von diesem nicht-weißen Bereich 806 wird ein Unterbild für die Bildersuche extrahiert, beispielsweise der größtmögliche zusammenhängende rechteckige Ausschnitt.
In diesem Fall entspricht das extrahierte Unterbild dem
korrigierten Abfragebild, welches anschließend im trainierten CNN-Modell verarbeitet wird, um die Abfrage Signatur zu
erhalten. Im Einzelnen wird das korrigierte Abfragebild durch mindestens ein CNN propagiert, dass zuvor mit Trainingsbildern trainiert wurde. Auf diese Weise berechnet das CNN-Modell beispielsweise einen Signaturvektor mit 128 Gleitkommazahlwerten als Abfragesignatur.
5. Abgleichen von Abfrage- und Datenbankbildern
Zum Auffinden von Vergleichssignaturen, die eine Ähnlichkeit mit der Abfrage Signatur haben, wird eine Approximiert-Nächster- Nachbar-Software-Bibliothek nach dem Stand der Technik
verwendet. Das Ergebnis dieser Vergleichssuche ist eine Liste mit zu dem Abfrageobjekt ähnlichen Produkten. Eine entsprechende Implementierung haben beispielsweise Malkov et al offenbart (Malkov Y.A. and Yashunin D.A., "Efficient and robust
approximate nearest neighbor search using Hierarchical Navigable Small World graphs", CoRR, 2016.) Diese Nächster-Nachbar- Bibliothek verwendet die Vergleichssignaturen, um eine
benutzerspezifische Suchstruktur aufzubauen. Nachdem diese
Struktur aufgebaut wurde, wird sie zur späteren Verwendung für die Suche auf Basis einer Abfragesignatur gespeichert.
Um die Liste ähnlicher Produkte zu liefern, wird die
vorberechnete Suchstruktur geladen und die Abfragesignatur (d. h. die Signatur des korrigierten Abfragebildes) übermittelt.
Nach der Übermittlung durchläuft die Software die Struktur und berechnet die ähnlichsten Übereinstimmungen unter den
VergleichsSignaturen .
6. Bereitstellen einer Liste mit ähnlichen Produkten Nachdem die Berechnung der ähnlichsten Übereinstimmungen abgeschlossen ist, wird eine Liste der ähnlichsten Produkte erstellt. Der Benutzer erhält diese Liste auf dem mobilen
Endgerät 103 oder sie wird ihm auf einer Webseite angezeigt.
Fig. 9 zeigt schematisch eine Vorrichtung zur Datenverarbeitung entsprechend der offenbarten Erfindung. Die Vorrichtung ist dabei ein elektronisches Gerät 901 (z. B. Mobiltelefon, Tablet oder Laptop) , das mit verschiedenen Komponenten ausgestattet ist und mit einer oder mehreren Antennen 900 verbunden ist. Es kann ferner einen oder mehrere Bildsensoren 902, optische Systeme 903, Kommunikationsschnittstellen 904 oder Anzeigen 905
enthalten. Die Anzeige 905 umfasst eine Benutzerschnittstelle 906. Das elektronische Gerät enthält ferner einen Speicher 907 und einen Prozessor 908.
Der Prozessor 908 kann Implementierungen eines oder mehrerer der vorstehend beschriebenen Verarbeitungsschritte aufweisen oder zu deren Ausführung eingerichtet sein, beispielsweise in Form von Komponenten eines Computerprogrammproduktes . Im Einzelnen können diese Komponenten sein: ein Bildgewinner 909 nimmt das
Abfragebild auf; ein Weißbereicherfasser 910 erfasst das Stück weißen Papiers im aufgenommenen Abfragebild; ein
Leuchtdichtenkorrektor 911 korrigiert die Leuchtdichte, genauer den Farbton und die Farbsättigung es vom Abfragebild
dargestellten Objekts; ein CNN-Signaturberechner 912 berechnet eine Abfragesignatur auf Grundlage des korrigierten
Abfragebildes; ein Nächste-Nachbar-Schätzer 913 findet in einer Datenbank von Vergleichssignaturen die ähnlichsten
Übereinstimmungen mit der Abfragesignatur; und ein CNN-Trainer 914 kann zum Trainieren des CNN-Modells des CNN- Signaturberechners 912 durch Trainingsbilder eingerichtet sein.

Claims

Ansprüche :
1. Computerimplementiertes Verfahren umfassend:
Anzeigen eines von einem Bildsensor erfassten Bildsignals in Echtzeit ;
Gleichzeitiges Anzeigen eines Hinweises (805) auf einen für eine Farbreferenz optimalen Bildausschnitt des erfassten
Bildsignals ;
Weiterleiten eines zu einem Auslösezeitpunkt erfassten
Bildsignals als Abfragebild (201) an eine inhaltsbasierte
Bildersuche .
2. Computerimplementiertes Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Hinweis (805) mindestens eine
Markierung für die Ausrichtung mindestens einer Kante der
Farbreferenz umfasst.
3. Computerimplementiertes Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Hinweis (805) eine Fläche für den optimalen Bildausschnitt definiert, wobei die Fläche
zwischen 15 % und 35 % der Bildfläche des erfassten Bildsignals einnimmt, vorzugsweise zwischen 20 % und 30 %, insbesondere etwa 25 %.
4. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, umfassend:
Korrigieren des Farbtons und/oder der Farbsättigung des Abfragebildes (201);
Durchführen einer inhaltsbasierten Bildersuche auf Grundlage des korrigierten Abfragebildes (204) .
5. Computerimplementiertes Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Durchführen einer inhaltsbasierten
Bildersuche auf Grundlage des korrigierten Abfragebildes (204) umfasst :
Propagieren des korrigierten Abfragebildes (204) durch mindestens ein neuronales Netzwerk (501, 502, 503), das mit Trainingsbildern (302) trainiert ist, zur Ermittlung einer
Abfragesignatur (308) aus dem korrigierten Abfragebild (204); Ermitteln einer Ähnlichkeit des Äbfragebildes (300) mit mindestens zwei Vergleichsbildern (306) auf Basis der
Äbfragesignatur (308) und den Vergleichsbildern (306) jeweils zugeordneten Vergleichssignaturen (309);
Bereitstellen einer Auswahl der Vergleichsbilder (306) auf Basis der ermittelten Ähnlichkeit mit dem Äbfragebild (300) .
6. Computerimplementiertes Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Vergleichssignaturen (309) auf
Grundlage von korrigierten Vergleichsbildern ermittelt wurden, wobei die Korrektur der Vergleichsbilder jener des Abfragebildes entspricht .
7. Computerimplementiertes Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass das Korrigieren des Farbtons und/oder der Farbsättigung des Abfragebildes (201) umfasst:
Ermitteln eines Farbfehlers aus einem Ausschnitt (202) des Abfragebildes (201) .
8. Computerimplementiertes Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass zum Ermitteln des Farbfehlers der
verwendete Ausschnitt (202) des Abfragebildes (201) als
einfarbig angenommen wird.
9. Computerimplementiertes Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass ein Mittelwert des Farbtons
und/oder der Farbsättigung innerhalb des Ausschnitts (202) berechnet wird und auf Grundlage des berechneten Mittelwerts ein Korrekturfaktor für den Farbton und/oder für die Farbsättigung ermittelt wird, mit dem mindestens ein Teil des Abfragebildes (201) korrigiert wird.
10. Computerimplementiertes Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass der für die Ermittlung des Farbfehlers zu verwendende Ausschnitt (202) unabhängig vom
Inhalt des Abfragebildes vorgegeben ist.
11. Computerimplementiertes Verfahren nach einem der Ansprüche 7 bis 9, gekennzeichnet durch: Durchführen einer Kantenerkennung innerhalb des
Abfragebildes (801) und
Festlegen des für die Ermittlung des Farbfehlers zu
verwendenden Ausschnitts (802) auf Grundlage des Ergebnisses der Kantenerkennung .
12. Computerimplementiertes Verfahren nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass das korrigierte Abfragebild die Bilddaten des Abfragebildes ohne den für die Ermittlung des Farbfehlers verwendeten Ausschnitt umfasst.
13. Vorrichtung (901) zur Datenverarbeitung, umfassend Mittel zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 3.
14. System zur Datenverarbeitung, umfassend die Vorrichtung (901) nach Anspruch 13 sowie Mittel zur Ausführung der
zusätzlichen Schritte des Verfahrens nach einem der Ansprüche 4 bis 12.
15. Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen
veranlassen, das Verfahren nach einem der Ansprüche 1 bis 3 auszuführen .
PCT/AT2019/060108 2018-03-28 2019-03-27 Inhaltsbasierte bildersuche WO2019183659A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ATA50262/2018 2018-03-28
AT502622018 2018-03-28

Publications (1)

Publication Number Publication Date
WO2019183659A1 true WO2019183659A1 (de) 2019-10-03

Family

ID=66102835

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/AT2019/060108 WO2019183659A1 (de) 2018-03-28 2019-03-27 Inhaltsbasierte bildersuche

Country Status (1)

Country Link
WO (1) WO2019183659A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269136A (zh) * 2021-06-17 2021-08-17 南京信息工程大学 一种基于triplet loss的离线签名验证方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150288939A1 (en) * 2014-04-04 2015-10-08 Visera Technologies Company Limited Color correction devices and methods
US20160029957A1 (en) * 2012-10-26 2016-02-04 Pixie Scientific, Llc Health diagnostic systems and methods
US20170249339A1 (en) * 2016-02-25 2017-08-31 Shutterstock, Inc. Selected image subset based search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160029957A1 (en) * 2012-10-26 2016-02-04 Pixie Scientific, Llc Health diagnostic systems and methods
US20150288939A1 (en) * 2014-04-04 2015-10-08 Visera Technologies Company Limited Color correction devices and methods
US20170249339A1 (en) * 2016-02-25 2017-08-31 Shutterstock, Inc. Selected image subset based search

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VASSILEIOS BALNTAS ET AL: "Learning local feature descriptors with triplets and shallow convolutional neural networks", PROCEEDINGS OF THE BRITISH MACHINE VISION CONFERENCE (BMVC), 19-22 SEPTEMBER, 2016, YORK, UK, 1 January 2016 (2016-01-01), UK, pages 119.1 - 119.11, XP055489102, ISBN: 978-1-901725-59-9, DOI: 10.5244/C.30.119 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269136A (zh) * 2021-06-17 2021-08-17 南京信息工程大学 一种基于triplet loss的离线签名验证方法
CN113269136B (zh) * 2021-06-17 2023-11-21 南京信息工程大学 一种基于triplet loss的离线签名验证方法

Similar Documents

Publication Publication Date Title
DE69415886T2 (de) Automatische Erkennung und Korrektion von Augenfarbfehlern, die durch Blitzlichtbeleuchtung verursacht wurden
DE69728127T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objekts in einem Bild
DE69429854T2 (de) Bildverarbeitungsverfahren und -gerät
DE602004005496T2 (de) Lokalisieren von Zähnen in Dentalbildern
DE102011106050B4 (de) Schattenentfernung in einem durch eine fahrzeugbasierte Kamera erfassten Bild zur Detektion eines freien Pfads
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
DE112015002583T5 (de) Vorrichtung für die Bildverarbeitung, Endoskopsystem und Verfahren für die Bildverarbeitung
DE102015010096A1 (de) Konfigurationseinstellungen einer Digitalkamera zur Tiefenkarten-Erzeugung
DE112010002174T5 (de) Verfahren und vorrichtung für ein praktisches 3d-sehsystem
DE112020003158T5 (de) Trainingsverfahren für ein Zielerfassungsmodell, Verfahren und Vorrichtung zur Kennzeichnung der Daten
DE112017005193T5 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Bildaufnahmevorrichtung
DE102013210478A1 (de) Geometrische vorkorrektur zur automatischen nummernschilderkennung
DE29521937U1 (de) Prüfsystem für bewegtes Material
DE112013004103T5 (de) Verfahren und Vorrichtung zum Erzeugen einer Disparitätskarte
DE10157958A1 (de) Bildverarbeitungsverfahren und-vorrichtung
DE102011106072A1 (de) Schattenentfernung in einem durch eine fahrzeugbasierte kamera erfassten bild unter verwendung einer optimierten ausgerichteten linearen achse
DE102017220307A1 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102017216821A1 (de) Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
DE69713977T2 (de) Verfahren und Gerät zur Retuschierung eines digitalen Farbbildes
DE69918609T2 (de) Automatisches Verfahren zur Erfassung von Änderungen zwischen zwei Bildern
DE112020005864T5 (de) Verfahren und Einrichtung zur Verifizierung der Authentizität eines Produkts
DE102015122116A1 (de) System und Verfahren zur Ermittlung von Clutter in einem aufgenommenen Bild
EP3528609A1 (de) Ertragsvorhersage für ein kornfeld
DE112010002677T5 (de) Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen
DE102012204537A1 (de) Verfahren zum Bestimmen der Abmessungen eines Körperteils

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19717106

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19717106

Country of ref document: EP

Kind code of ref document: A1