WO2013037357A1 - Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern - Google Patents

Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern Download PDF

Info

Publication number
WO2013037357A1
WO2013037357A1 PCT/DE2012/100238 DE2012100238W WO2013037357A1 WO 2013037357 A1 WO2013037357 A1 WO 2013037357A1 DE 2012100238 W DE2012100238 W DE 2012100238W WO 2013037357 A1 WO2013037357 A1 WO 2013037357A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
training
feature
images
classification
Prior art date
Application number
PCT/DE2012/100238
Other languages
English (en)
French (fr)
Inventor
Klaus Schertler
Jörg Liebelt
Original Assignee
Eads Deutschland Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eads Deutschland Gmbh filed Critical Eads Deutschland Gmbh
Priority to EP12769887.6A priority Critical patent/EP2756458A1/de
Priority to US14/344,390 priority patent/US9361543B2/en
Publication of WO2013037357A1 publication Critical patent/WO2013037357A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • Machine learning machine for machine learning of manifestations of objects in images
  • the invention relates to a machine learning method for automatically detecting the appearances of objects in images in the form of object features from training operators for using the learned object features in an image processing system, as well as an apparatus for performing the method.
  • Such an image processing system can be provided by an object recognition system, object tracking system or an image intensification system.
  • the object of object recognition systems is to locate and classify objects (e.g., vehicles or people) in digital images. These are used, for example, in motor vehicles, where the environment and in particular the area in front of the motor vehicle is to be examined for objects such as other vehicles or passers-by, or the field of robotics, where the surroundings are to be searched for specific objects by a freely movable robot.
  • objects e.g., vehicles or people
  • These are used, for example, in motor vehicles, where the environment and in particular the area in front of the motor vehicle is to be examined for objects such as other vehicles or passers-by, or the field of robotics, where the surroundings are to be searched for specific objects by a freely movable robot.
  • the object of object tracking systems is to retrieve an object (e.g., a vehicle or a person) in an image of a bios sequence, provided that its location, extent, and appearance are known in one or more previous images of the image sequence.
  • an object e.g., a vehicle or a person
  • the task of book registration systems is to determine bi-directional transformations (e.g., translations) between two images that allow the images to be matched by applying the transformation.
  • bi-directional transformations e.g., translations
  • panoramic imaging methods bring the overlapping areas of two images into coincidence to create an overall image (so-called stitching). From the relative positions of the image contents in both images, the necessary transformation information can be determined.
  • the method of supervised machine learning of an object recognition system uses a preferably large number of annotated training guides which both represent the image contents of the objects to be learned and their image backgrounds.
  • An image area around an image position at which an object to be learned is located in the training image is referred to as a positive trait example; sittv annotated.
  • Image areas in the training image where there are no objects to learn (in the image background) are referred to as negative training examples (negative annotation).
  • a basic problem with this is the necessary processing of a preferably large number of positive and negative training examples, which is necessary for the detection of the possibly diverse manifestations of backgrounds and objects.
  • Desirable processing of a large number of training examples is therefore of great interest both from a functional point of view (training of a larger variance of manifestations) and an operational point of view (time and processing effort).
  • the annotated training images are given by the images of an image sequence in which the position, extent and appearance of the object to be tracked are already known or annotated from previous images of the image sequence.
  • An initial annotation can be effected, for example, by a user (marking of the object to be tracked), by an object recognition system or by the detection of moving objects.
  • one of the two images is interpreted as a training report, the other as a test report.
  • the determination of the positive annotations in the training image must be specified specifically for the registration task and the transformation information to be determined in terms of number and location.
  • one or more positive annotations could be selected at fixed positions in the expected overlap area of both images (e.g., on the right edge of the image). The rest of the picture is negatively annotated.
  • positive annotations may be generated by manual or automatic determination of prominent valley areas, i. by determining image areas that are particularly suitable for their retrieval in the test image (e.g., highly structured image areas). If more than two images (e.g., one image sequence) are to be registered with each other, positive and negative annotations may be appropriately selected in more than one image of the sequence (in the sense of multiple training images),
  • the prior art is an explicit generation of a large number of positive and negative eventing examples in the form of feature data vectors with their explicit processing in a machine learning approach (e.g., support vector machine or neural network),
  • the conventional methods solve this problem in discretized form.
  • Individual training examples are discretely extracted at the areas determined by the annotation images and converted into individual feature data vectors. Since a large number of such training data vectors can be obtained from a single feature image by overlapping the image plane, typically only a small subset is selected in this step to reduce computational effort. The thereby achievable validity of the object feature contributions that can be obtained from a training image in a single processing step is consequently limited.
  • the object of the invention is to provide the rapid processing of a large number of positive and negative training examples (annotations) in the training of an image processing system.
  • At least one training image contains the representation of an object to be learned and the associated annotation images at positions of objects in the training image have positive annotation values (annotations);
  • Linear filtering operations are standard image and signal processing operations (see, e.g., R.C. Gonzales, R. E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall).
  • the invention enables the training of greater variance of object and background manifestations, thereby increasing the robustness of the system in its application to untrained images.
  • the invention allows for faster training runs. this makes possible
  • the invention enables it to be implemented on hardware architectures with lower processing speeds (e.g., on mobile hardware architectures).
  • FIG. 1 a schematic overview of the teaching unit according to the invention
  • Figure 2 a schematic representation of the operation of the classification unit
  • Figure 3. is a schematic representation of the operation of the fusion unit
  • Figure 4 an exemplary representation of the Fiitervorgangs in the fusion unit.
  • FIG. 1 schematically illustrates the learning unit 10 according to the invention. This comprises at least one training image unit 12, a feature extraction unit 14, a classification unit 16 and a feature fusion unit 18.
  • a further optional subunit, the initialization unit serves exclusively for initializing object features and is therefore not shown in FIG.
  • Task of the learning unit 10 is to capture the appearance of objects and backgrounds in training images 20 in an efficient manner. The detection takes place by determining the object feature contributions of each training image 20. Execution of the learning unit 10 on a plurality of training images 20 makes it possible to combine the searched object features from the object feature contributions of the individual training images 20. An embodiment of the combination of the subject timbral contributions is given by their averaging.
  • the task of the initialization unit (not shown) is to provide an initial estimate of object features. An embodiment of the initialization unit is given by a random or uniform initialization of the object nerkmate. An alternative embodiment uses the training image unit and the feature extraction units to obtain an intial estimate of object features based on the objects imaged in the training images.
  • the task of the training image unit 12 is to provide training images 20 and annotation images 22.
  • the training images 20 may be real sensor brothers, computer graphics generated synthetic images, or mixed forms of both.
  • the training image unit 12 provides an annotation page 22. It can be seen from the annotation image 22 at which image positions in the training image 20 objects are to be learned (positive annotations) .Picture positions in the training subject 20 on which no objects to be learned (eg in the image background) are negatively annotated Image excerpts in the training image background of the same size as the objects to be learned are referred to as negative training examples
  • Figure 1 symbolically shows a training subject 20 with associated annotation image 22. For reasons of simpler representability the image plane is divided into a simpler 3x3 grid.
  • An advantageous embodiment of the object recognition system training image unit 12 is provided by a computer graphics system in which the objects to be trained can be generated in arbitrary numbers against arbitrary backgrounds using 3D models at a known camera position, synthetically under any display conditions (e.g., illumination).
  • the task of the feature extraction unit 14 is the conversion of a training image 20 into one or more memory cells 24.
  • a simple embodiment of the feature extraction unit 14 is the generation of an edge image by edge biases.
  • Several feature images 24 can be obtained, for example, by the application of a filter bank with direction filters.
  • FIG. 1 symbolically shows the result of an edge-based operation as a feature image 24.
  • the task of the classification unit 16 is the conversion of a feature image 24 in FIG a classification image 26.
  • the entries of the classification image 26 designated as the classification response are a measure of the similarity between object features and the feature image 24 in the local environment of the corresponding image position. Larger classification responses indicate greater similarity.
  • the object features 28 fed to the classification unit 16 are derived either from the initialization unit, not shown, or from object features derived by combination (e.g., averaging) of previously determined object feature contributions from training images 20.
  • a preferred embodiment of the classification unit 16 for calculating the similarity measure is given by an image correlation between object features and feature image shown in FIG. If more than one feature image 24 has been generated per training image 20 in the feature extraction unit 14, then the classification unit 16 is to be applied to each feature image 24.
  • the task of the feature fusion unit 18 is to fuse a possibly large number of differently weighted regions of the feature image 24 in the most efficient manner by addition, and thus to determine the searched feature contribution 30 of a training bios 20 to the object features.
  • the feature fusion unit 18 uses the annotation image 22 and the classification image 26.
  • the mode of operation of the feature fusion unit 18 is shown symbolically in FIG. 3 and can be subdivided into two steps.
  • a high kiassification response should occur with optimally chosen object features. If this is not the case, this indicates that there are 24 new object feature structures in the feature image which are not yet sufficiently represented in the object features used, e.g. through a previously unlearned shaping of the object in the training image.
  • the corresponding area of the feature image 24 must therefore be included in the determination of the subject feature contributions of the training image 20 with a positive weighting.
  • the positive weighting at an image position is advantageously chosen to be the larger, the smaller the classification response at the corresponding image position has failed.
  • each image position in the feature fusion unit 18 is assigned a weight and the results are assigned to a weight image 32.
  • Step 2 makes advantageous use of the property of linear filter operations, in which the weights of a filter mask determine in which weighting which portions of a signal are to be summed. It should be noted at this point that the linear fiiter operations described here are not to be confused with their filter function as they are used, for example, in object recognition for the measurement of similarities or for feature extraction.
  • the execution of the fusion is illustrated by way of example with reference to FIG. 4, which shows a characteristic maize 24 having a few non-zero entries (zeros are not shown in the figure).
  • the task consists in summing the gray-marked image areas with given weights. The image positions of the sum regions to be summed are entered in the weight image 32 with their weights to be used.
  • This task is now performed by filtering feature biogram 24 (M) through weight image 32 (G) (G * ), where * means the filtering operation, in result image 34 (G * M) the entries lying outside the central image area are ignored , which is represented by a dash.
  • * means the filtering operation
  • result image 34 the entries lying outside the central image area are ignored , which is represented by a dash.
  • the object of the second step of the feature fusion shown in FIG. 3 below can thus be achieved by interpreting the weight image 32 obtained in the first step shown in FIG. 3 above as a filing mask in order to obtain the weight image 32 by linear filtering of the thermal image 24 to achieve the desired weighted summation of feature areas.
  • the filtering of the feature image 24 with the answerssbiid 32 can be advantageously carried out after transformation of both Biider by means of fast Fourier transforms in the frequency domain by simple element-wise multiplication.
  • the well-known methodology of performing filter operations in the frequency domain by exploiting the so-called convolution theorem is, for example, in the textbook of R.C. Gonzales and R.E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall). With this methodology, unlike the prior art, the regions of the feature image 24 need not be explicitly generated in the form of feature data vectors but are implicitly generated, weighted and summed within the filter operation.
  • FIGS. 1 and 3 the feature contributions of positive and negative weights are shown separated only for more comprehensible presentation.
  • the Merkmaisfusion unit generates the sum of both contributions.
  • Classification unit 16 generates more than one classification image 26, a corresponding number of feature contributions are generated in the feature fusion unit 18.

Abstract

Ein maschinelles Lernverfahren zum maschinellen Erlernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen (28) anhand von Trainingsbildern (20) zur Verwendung der erlernten Objektmerkmale (28) in einem Bildverarbeitungssystem, umfasst die Bestimmung eines Merkmalsbeitrages (30) eines Trainingsbildes (20) zu Objektmerkmalen (28) durch gewichtete Summation von Trainingsbild-Merkmalen mittels auf dem Merkmalsbild (24) angewendeter linearer Filteroperationen unter Verwendung eines mindestens aus einem Annotationsbild (22) und einem Klassifikationsbild (26) gewonnenem Gewichtsbild (32). Dies ermöglicht schnellere Lernprozesse sowie das Erlernen einer größeren Varianz von Erscheinungsformen von Objekten und Hintergründen, wodurch die Robustheit des Systems in seiner Anwendung auf untrainierte Bilder erhöht wird.

Description

Maschinelles Lernverfahrers zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
Die Erfindung betrifft ein maschinelies Lernverfahren zum maschinellen Erfernen der Erscheinungsformen von Objekten in Bildern in Form von Objektmerkmalen anhand von Trainingsbiidern zur Verwendung der erlernten Objektmerkmale in einem Bildverarbeitungssystem, sowie eine Vorrichtung zur Durchführung des Verfahrens.
Ein solches Bildverarbeitungssystem kann dabei durch ein Objekterkennungssystem, Objektverfolgungssystem oder ein Bildregtstrierungssystem gegeben sein.
Die Aufgabe von Objekterkennungssystemen ist das Lokalisieren und Klassifizieren von Objekten (z.B. Fahrzeugen oder Personen) in digitalen Bildern. Diese kommen beispielsweise in Kraftfahrzeugen zum Einsatz, wo die Umgebung und insbesondere der Bereich vor dem Kraftfahrzeug auf Objekte wie andere Fahrzeuge oder Passanten zu untersuchen ist, oder den Bereich der Robotik, wo von einem frei bewegbaren Roboter die Umgebung nach bestimmten Objekten abzusuchen ist.
Die Aufgabe von Objektverfolgungssystemen ist das Wiederauffinden eines Objektes (z.B. eines Fahrzeuges oder einer Person) in einem Bild einer Biidsequenz, unter der Voraussetzung, dass dessen Lage, Ausdehnung und Erscheinungsform in einem oder mehreren vorherigen Bildern der Bildsequenz bekannt ist.
Die Aufgabe von Büdregistrierungssystemen ist die Bestimmung von Biidtransformationen (z.B. Translationen) zwischen zwei Bildern, weiche es ermöglichen, durch Anwendung der Transformation die Bilder in Deckung zu bringen. Beispielsweise bringen Methoden zur Panoramabilderzeugung die überlappenden Bereiche zweier Bilder in Deckung um ein Gesamtbild zu erzeugen (sog. Stitching). Aus den relativen Lagen der Bildinhalte in beiden Bildern lassen sich die notwendigen Transformationsinformationen bestimmen.
Die Methodik des überwachten maschinellen Lernens eines Objekterkennungssystems benutzt eine vorzugsweise große Anzahl von annotierten Trainingsbiidern, welche sowohl die Bildinhalte der zu erlernenden Objekte als auch deren Bild-Hintergründe enthaften bzw. repräsentieren. Ein Bildbereich um eine Bildposition, an der sich im Trainingsbild ein zu erlernendes Objekt befindet, wird als positives Traintngsbeispiei bezeichnet, es ist po- sittv annotiert. Bildbereiche im Trainingsbild, an denen sich keine zu erlernenden Objekte befinden (im Bild-Hintergrund), werden als negative Trainingsbeispiele bezeichnet (negative Annotation).
Während des Trainings des Objekterkennungssystems werden positive und negative Trainingsbeispieie aus den Trainingsbildern herangezogen, um daraus Objektmerkmale zu erlernen, weiche eine möglichst eindeutige Trennung von Objekt und Hintergrund ermöglichen. Die so erlernten Objektmerkmale werden im Objekterkennungssystem dazu verwendet, um in beliebigen {im Training ungesehenen Bildern) das Auffinden des erlernten Objektes zu ermöglichen.
Ein Grundproblem dabei ist die notwendige Verarbeitung einer vorzugsweise großen Anzahl von positiven und negativen Trainingsbeispieien, welche zur Erfassung der möglicherweise vielfältigen Erscheinungsformen von Hintergründen und Objekt von Nöten ist. Beispielsweise sei ein Trainingsbild der Größe 1000x1000 Pixel angenommen, in dem sich ein Objekt der Größe 100x100 Pixel befindet- Während in diesem Falle genau ein positives Trainingsbeispiel gegeben ist, sind im Trainingsbitd (1000-100+1) x (1000- 100+1 ) - 1 - 81 800 nutzbare negative Trainingsbeispiele der Größe 100x100 Pixel enthalten, weiche sich in der Bildebene überlappen.
Eine wünschenswerte Verarbeitung einer großen Anzahl von Trainingsbeispieien ist daher sowohl aus funktioneller Sicht (Training einer größeren Varianz von Erscheinungsformen) sowie einer Operationellen Sicht (zeitlicher und verarbeitungstechnischer Aufwand) von großem Interesse. in Bildverfolgungssystemen sind die annotierten Trainingsbilder durch die Bilder einer Bildsequenz gegeben, in denen die Lage, Ausdehnung und Erscheinungsform des zu verfolgenden Objektes schon aus vorherigen Bildern der Bildsequenz bekannt bzw. annotiert sind. Eine initiale Annotation kann beispielsweise durch einen Benutzer (Markierung des zu verfolgenden Objektes), durch ein Objekterkennungssystem oder durch die Detek- tion von bewegten Objekten erfolgen. Während in einem Objektverfolgungssystem positive Annotationen (positive Trainingsbeispiele) nur aus den vorherigen Bildern der Bildsequenz - und somit nur in geringer Anzahl - verfügbar sind, profitiert ein solches System umso mehr von dem schnellen Erlernen vieler negativer Annotationen (Objekthintergründe, negative Trainingsbeispieie). Oies ist insbesondere von großem Informationsgehalt, da diese sich von Bild zu Bild wenig unterscheiden. Im Vergleich dazu muss ein Objekterkennungssystem oftmals gegen negative Annotationen (Objekthintergründe) trainiert werden, welche nicht zwingend den im operationeilen Einsatz auftretenden Objekthintergründen identisch sind.
Zur Registrierung von zwei Bildern in einem Bildregistrierungssystem wird eines der beiden Bilder ais Trainingsbiid, das andere als Testbiid interpretiert. Die Bestimmung der positiven Annotationen im Trainingsbild muss spezifisch für die Registrierung saufgabe und die damit zu bestimmende Transformationsinformation in Anzahl und Lage festgelegt werden. Beispielsweise könnten zur Panoramabilderzeugung eine oder mehrerer positive Annotationen an festen Positionen im zu erwartenden Überlappungsbereich beider Bilder gewählt werden (z.B. am rechten Bildrand). Der Rest des Bildes gilt als negativ annotiert. Alternativ können positive Annotationen durch manuelle oder automatische Bestimmung von markanten Bäldbereichen erzeugt werden, d.h. durch Bestimmung von Bildbereichen welche für deren Wiederauffinden im Testbild besonders geeignet sind (z.B. stark strukturierte Bildbereiche). Sollen mehr als zwei Bilder (z.B. eine Bildsequenz} zueinander registriert werden, können positive und negative Annotationen in geeigneter Form in mehr als einem Bild der Sequenz gewählt werden (im Sinne mehrere Trainingsbilder),
Während im Gegensatz zu Objekterkennungssystemen und Objektverfolgungssystemen im Falle von Biidregistrierungssystemen das Wsederaufflnden von allgemeinen Bildinhalten (nicht zwingend von Objekten) in verschiedenen Bildern angestrebt ist, wird im Folgenden zum Zwecke einer vereinfachten Formulierung von Objekten gesprochen. Unter Objekten sind demnach Bildinhalte zu verstehen, welche in Bildern aufgefunden werden sollen ohne mit anderen Bildinhalten verwechselt zu werden.
Stand der Technik ist eine explizite Erzeugung einer großen Anzahl von positiven und negativen Tratningsbeispieien in Form von Merkmalsdatenvektoren mit deren expliziten Verarbeitung in einem maschinellen Lernansatz (z.B. Support- Vector-Maschine oder Neuronales Netzwerk),
Die herkömmlichen Verfahren lösen diese Aufgabe in diskretisierter Form. Einzelne Trainingsbeispiele werden dabei an den durch die Annotationsbilder bestimmten Bereichen diskret extrahiert und in einzelne erkmalsdatenvektoren überführt. Da durch Überlappung in der Bildebene ein große Anzahl derartiger Trainingsdatenvektoren aus einem einzelnen Merkmalsbild gewonnen werden können, wird in diesem Schritt zur Reduzierung des Berechnungsaufwandes typischerweise lediglich eine kleine Untermenge ausgewählt. Die dadurch erzielbare Aügemeingültigkeit der aus einem Trainingsbild in einem einzigen Verarbeitungsschritt gewinnbaren Objektmerkmalsbeiträge ist folglich begrenzt. Hiervon ausgehend liegt der Erfindung die Aufgabe zugrunde, die schnelle Verarbeitung einer großen Anzahl von positiven und negativen TrainingsbeispieSen (Annotationen), im Training eines Bildverarbeitungssystems bereitzustellen.
Die Lösung dieser Aufgabe ergibt sich aus den Merkmalen der unabhängigen Ansprüche, Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche. Erfindungsgemäß wird die Aufgabe durch ein maschinelles Lernverfahren mit folgenden Schritten gelöst:
- Bereitstellen von Trainingsbildern und zugehörigen Annotationsbildern, wobei mindestens ein Trainingsbild die Darstellung eines zu erlernenden Objektes enthält und die zugehörigen Annotationsbilder an Positionen von Objekten im Trainingsbild positive Annota- tionswerte (Annotationen) aufweisen;
- Erstellen mindestens eines Merkmalsbildes aus einem Trainingsbild, wobei ein Merkmal an einer Bildposition im Merkmalsbild aus der Umgebung der entsprechenden Bildposition im Trainingsbild extrahiert ist;
- Erzeugen eines Klassifikationsbildes aus dem Merkmalsbild und Objektmerkmalen, das Informationen über den Ähnlichkeitsgrad zwischen den Objektmerkmalen und dem Merkmalsbifd in der Form von Klassifikationsantworten enthält;
- Bestimmen eines Merkmalsbeitrages des Trainingsbildes zu den Objektmerkmaien durch gewichtete Summation von Trainingsbild-Merkmalen mittels linearer Fiiteroperatio- nen mindestens aus den Annotattonsbildern, dem Merkmalsbild und dem Klassifikationsbild. Lineare Filteroperationen sind Standardoperationen aus dem Bereich der Bild- und Signalverarbeitung (siehe z.B. Lehrbuch R.C. Gonzales, R.E. Woods, Digital Image Processing, Third Edition, Pearson Prentice Hall).
Die Erfindung ermöglicht in funktioneller Hinsicht das Training einer größeren Varianz von Erscheinungsformen von Objekten und Hintergründen, wodurch die Robustheit des Systems in seiner Anwendung auf untrainierte Bilder erhöht wird. In operationeller Hinsicht ermöglicht die Erfindung die Durchführung schnellerer Trainingsdurchläufe. Dies ermöglicht
- eine schnellere Anpassung von Objekterkennungssystemen an veränderte Bedingun- gen bezüglich zu erkennender Objekte oder zu erwartender Hintergrundstrukturen - bis hin zu dedizierten Trainingsdurchläufen im operationeiien Betrieb des Objekterkennungssystems.
- die Durchführbarkeit einer höheren Anzahl von Trainings- und Evatuierungsdurchläufen zur sukzessiven Optimierung des Objekterkennungssystems (z.B. Trainingsdurchläufe unter Parametervariationen).
- die Durchführung von schneiten Trainingsdurchläufen für die fernbasierte Objektverfolgung oder Bild reg istrierung in Echtzeit auf Bilddatenströmen (Videodatenströmen).
Alternativ zu einer schnelleren Durchführung von Trainingsdurchläufen ermöglicht die Erfindung deren Ausführung auf Hardwarearchitekturen mit geringeren Verarbeitungsgeschwindigkeiten (z.B. auf mobiien Hardwarearchitekturen).
Die Erfändung wird nachfolgend anhand eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Diese zeigen:
Figur 1 ; eine schematische Übersichtsdarstellung der erfindungsgemäßen Lerneinheit;
Figur 2; eine schematische Darstellung der Arbeitsweise der Klassifikationseinheit; Figur 3. eine schematische Darstellung der Arbeitsweise der Fusionseinheit;
Figur 4: eine beispielhafte Darstellung des Fiitervorgangs in der Fusionseinheit.
In Figur 1 ist die erfindungsgemäße Lerneinheit 10 schematisch dargestellt. Diese um- fasst zumindest eine Trainingsbildeinheit 12, eine Merkmalsextraktionseinhett 14, eine Kiassifikationseinheit 16 sowie eine Merkmalsfusionseinheit 18. Eine weitere optionale Untereinheit, die Initialisierungseinheit, dient ausschließlich zum Initialisieren von Objektmerkmalen und ist daher in Figur 1 nicht abgebildet.
Aufgabe der Lerneinheit 10 ist es, die Erscheinungsform von Objekten und Hintergründen in Trainingsbildern 20 in effizienter Art und Weise zu erfassen. Die Erfassung erfolgt durch die Bestimmung der Objektmerkmalsbeiträge eines jeden Trainingsbildes 20. Eine Ausführung der Lerneinheit 10 auf mehreren Trainingsbildern 20 ermöglicht es, die gesuchten Objektmerkmale aus den Objektmerkmalsbeiträgen der einzelnen Trainingsbilder 20 zu kombinieren. Eine Ausführungsform der Kombination der Objekimerkmalsbeiträge ist durch deren Mittelung gegeben. Die Aufgabe der nicht dargestellten initialisierungseinheit ist die Bereitstellung einer initialen Schätzung von Objektmerkmalen. Eine Ausführungsform der Initialisierungseinheit ist durch eine zufällige oder gleichförmige Initialisierung der Objekt nerkmate gegeben. Eine alternative Ausführungsform benutzt die Trainingsbildeinheit und die erkmalsextrakti- onseinheäi zur Gewinnung einer inttiaien Schätzung von Objektmerkmalen aufgrund der in den Trainingsbildern abgebildeten Objekte.
Die Aufgabe der Trainingsbildeinheit 12 ist die Bereitstellung von Trainingsbildern 20 und Annotationsbildern 22. Bei den Trainingsbildern 20 kann es sich um reale Sensorbüder, per Computergrafik erzeugte synthetische Bilder oder Mischformen aus beiden handeln. Neben dem eigentlichen Trainingsbild 20 stellt die Trainingsbildeinheit 12 ein Annotati- onsbiid 22 zur Verfügung. Dem Annotationsbild 22 kann entnommen werden, an welchen Bildpositionen im Trainingsbiid 20 sich zu erlernenden Objekte befinden (positive Annotationen}. Bildpositionen im Trainingsbiid 20, an denen sich keine zu erlernenden Objekte befinden (z.B. im Bild-Hintergrund) sind negativ annotiert. Die das zu erlernende Objekt umfassenden Büdausschnitte im Trainingsbild 20 werden als positive Trainingsbeispiele bezeichnet. Bildausschnitte im Trainingsbild-Hintergrund der gleichen Größe wie die zu erlernenden Objekte werden als negative Trainingsbeispiele bezeichnet In Figur 1 ist symbolisch ein Trainingsbiid 20 mit zugehörigem Annotationsbild 22 gezeigt. Aus Gründen der einfacheren Darstellbarkeit ist die Bildebene in ein einfacheres 3x3 Raster eingeteilt.
Eine vorteilhafte Ausführungsform der Trainingsbildeinheit 12 für ein Objekterkennungssystem ist durch ein Computergrafiksystem gegeben, in dem die zu trainierenden Objekte unter Verwendung von 3D-Model!en bei bekannter Büdposiiion synthetisch unter beliebigen Darstellungsbedingungen (z.B. Beieuchtung) vor beliebigem Hintergrund in beliebiger Anzahl erzeugt werden können.
Die Aufgabe der Merkmalsextraktionseinheit 14 ist die Umwandlung eines Trainingsbildes 20 in ein oder mehrere erkmaisbiider 24. Eine einfache Ausführungsform der Merkmalsextraktionseinheit 14 ist die Erzeugung eines Kantenbildes durch Kantenbiidoperati- onen. Mehrere Merkmalsbilder 24 können beispielsweise durch die Anwendung einer Filterbank mit Richtungsfiitern gewonnen werden. Figur 1 zeigt symbolisch das Ergebnis einer Kantenbiidoperation als Merkmalsbild 24.
Die Aufgabe der Klassifikationseinheit 16 ist die Umwandlung eines Merkmalsbildes 24 in ein Klassifikationsbiid 26. Die als Klassifikationsantwort bezeichneten Einträge des Klassifikationsbildes 26 sind ein Maß für die Ähnlichkeit zwischen Objektmerkmaien und dem Merkmaisbild 24 in der lokaien Umgebung der entsprechenden Bildposition. Größere Klassifikationsantworten deuten auf eine größere Ähnlichkeit hin.
Die der Klassifikationseinheit 16 zugefuhrten Objekfmerkmale 28 stammen entweder aus der nicht gezeigten Initialisierungseinheit oder aus Objektmerkmalen, weiche durch Kombination (z.B. Mittelung) von zuvor bestimmten Objektmerkmalsbeiträgen von Trainings- bildern 20 stammen. Eine bevorzugte Ausführungsform der Klassifikationseinheit 16 zur Berechnung des Ähnlichkeitsmaßes ist durch eine in Figur 2 gezeigte Bildkorrelation zwischen Objektmerkmalen und Merkmalsbild gegeben. Wurden in der Merkmaisextrakti- onseinheit 14 mehr als ein Merkmalsbild 24 pro Trainingsbild 20 erzeugt, so ist die Klassifikationseinheit 16 auf jedes Merkmalsbiid 24 anzuwenden.
Die Aufgabe der Merkmalsfusionseinheit 18 ist es, auf möglichst effiziente Art und Weise eine möglicherweise große Anzahl von unterschiedlich gewichteten Bereichen des Merk- malsbildes 24 durch Addition zu fusionieren und damit den gesuchten Merkmaisbeitrag 30 eines Trainingsbiides 20 zu den Objektmerkmalen zu bestimmen. Zur Bestimmung der Gewichte verwendet die Merkmalsfusionseinheit 18 das Annotationsbild 22 und das Klassifikationsbild 26.
Die Funktionsweise der Merkmalsfusionseinheit 18 ist symbolisch in Figur 3 dargestellt und in zwei Schritte unterteübar.
An Bildposttionen, an denen laut Annotationsbiid 22 ein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine hohe Kiassifikationsantwort auftreten. Ist dies nicht der Fall, deutet dies darauf hin, dass im Merkmalsbiid 24 neue Objektmerkmaisstrukturen vorhanden sind, welche noch nicht im ausreichenden Maße in den benutzen Objektmerk malen repräsentiert sind, z.B. durch eine bisher nicht erlernte Formgebung des Objektes im Trainingsbild. Der entsprechende Bereich des Merkmalsbildes 24 muss daher mit einer positiven Gewichtung in die Bestimmung der Öbjektmerkmalsbeiträge des Trainingsbildes 20 eingehen. Vorteilhaft wird die positive Gewichtung an einer Bildposition umso größer gewählt, je kleiner die Kiassifikationsantwort an entsprechender Bildposiiion ausgefallen ist.
An Büdpositionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist, sollte bei optimal gewählten Objektmerkmalen eine niedrige Klassifikaiionsantwort auftreten. Ist dies nicht der Fall,, deutet dies darauf hin, dass im Merkmalsbiid 24 Hintergrundmerk- malsstrukturen vorhanden sind, welche eine zu große Ähnlichkeit mit den benutzten Objektmerkmaien besitzen. Der entsprechende Bereich des Merkma!sbildes 24 muss daher mit einer negativen Gewichtung in die Bestimmung der Objektmerkmaisbeiträge des Trainingsbildes 20 eingehen, Vorteilhaft wird die negative Gewichtung an einer Bildposition umso stärker negativ gewählt, je größer die Klassifikationsantwort an entsprechender Bild position ausgefallen ist.
An Bildpositionen, an denen laut Annotationsbiid 22 ein Objekt abgebildet ist und die Klassifikationsantwort ausreichend groß ausfällt - z.B. über einer Schwelle liegt - kann dieser Bildposition ein Gewicht von Nuil zugeordnet werden. An Bild Positionen, an denen laut Annotationsbild 22 kein Objekt abgebildet ist und die Klassifikationsantwort ausreichend klein ausfällt - z.B. unter einer Schwelle liegt - kann dieser Bildposition ein Gewicht von Null zugeordnet werden.
Entsprechend dem oben beschriebenen Verfahren wird jeder Bildposition in der Merk- malsfusionseinheit 18 ein Gewicht zugeordnet und die Ergebnisse einem Gewichtsbild 32 zugeordnet.
Die Aufgabe des in Figur 3 unten dargestellten zweiten Schrittes ist die gewichtete Sum- mation von Merkmalsbereichen entsprechend der im ersten Schritt bestimmten Gewichte. Schritt 2 macht sich dabei vorteilhaft die Eigenschaft von linearen Filteroperationen zu Nutze, bei denen die Gewichte einer Filtermaske bestimmen, in welcher Gewichtung welche Anteile eines Signals summiert werden sollen. Es sei an dieser Stelle darauf hingewiesen, dass die hier beschriebenen linearen Fiiteroperationen in ihrem funktionellen Ziel nicht mit Filteroperationen zu verwechseln sind, wie sie beispielsweise in der Objekterkennung zur Messung von Ähnlichkeiten oder zur Merkmalsextraktion verwendet werden.
Die Ausführung der Fusion sei exemplarisch anhand von Figur 4 illustriert, das ein Merkmaisbiid 24 mit einigen von Null unterschiedlichen Einträgen (Nullen sind in der Abbildung nicht dargesteiit) zeigt. Dabei besteht die Aufgabe darin, die grau markierten Bildbereiche mit vorgegebenen Gewichten zu summieren. Die Bildpositionen der zu summierenden Biidbereiche sind mit ihren zu verwendenden Gewichten im Gewichtsbild 32 eingetragen. Diese Aufgabe wird nun durch Filterung des Merkmalsbiides 24 (M) durch das Gewichtsbild 32 (G) ausgeführt (G* ), Hier bedeutet * die Operation der Filterung, im Ergebnisbild 34 (G*M) werden die außerhalb des zentralen Bildbereiches liegenden Einträge ignoriert, was durch einen Strich dargestellt ist. Wie zu erkennen ist, befindet sich im Ergebnisbild 34 die Summe der gewichteten Bildbereiche aus dem Merkmaisbild 24.
Die Aufgabe des in Figur 3 unten dargestellten zweiten Schrittes der Merkmalsfusion kann demnach dadurch erreicht werden, dass das in dem in Figur 3 oben dargestellten ersten Schrittes gewonnene Gewichtsbild 32 als Filiermaske interpretiert wird, um durch eine lineare Filterung des erkmalsbÜdes 24 mit dem Gewichtsbild 32 die gewünschte gewichtete Summation von Merkmalsbereichen zu erzielen. Die Filterung des Merkmalsbildes 24 mit dem Gewichtsbiid 32 kann vorteilhaft nach Transformation beider Biider mittels schneller Fourier-Transformationen im Frequenzraum durch einfache elementweise Multiplikation ausgeführt werden. Die bekannte Methodik der Durchführung von Filteroperationen im Frequenzraum durch Ausnutzung des sog. Faltungstheorems (convolution theorem) ist beispielsweise im Lehrbuch von R.C. Gonzales und R.E. Woods (Digital Image Processing, Third Edition, Pearson Prentice Hall) beschrieben. Mit dieser Methodik müssen die Bereiche des Merkmalsbildes 24 im Gegensatz zum Stand der Technik nicht explizit in der Form von Merkmalsdatenvektoren erzeugt werden sondern werden innerhalb der Filteroperation implizit erzeugt, gewichtet und aufsummiert.
In den Figuren 1 und 3 sind die Merkmalsbeiträge von positiven und negativen Gewichten ausschließlich zur nachvollziehbareren Darstellung getrennt gezeigt. Die Merkmaisfusi- onseinheit erzeugt die Summe beider Beiträge.
Werden in der Merkmalsextraktionseinheit 14 mehr als ein Merkmalsbild 24 und in der
Klassifikationseinheit 16 mehr ais ein Klassifikationsbild 26 erzeugt, werden in der Merkmalsfusionseinheit 18 eine entsprechende Anzahl von Merkmalsbeiträgen erzeugt.
Bezugszeichenitste
10 Lerneinheit
12 Traintngsbiideinheit
14 Merkmalsextraktionseinheit
16 Klassifikationseinhett
18 Merkmalsfusionseinheit
20 Tratningsbüd
22 Annotationsbild
24 Merkmalsbild
26 Klassifikattonsbild
28 Objektmerkrnai
30 Merkmaisbeitrag
32 Gewichtsbiid
34 Ergebnisbild

Claims

Patentansprüche
Maschinelles Lernverfahren zum maschinellen' Erlemen der Erscheinungsformen von Objekten in Bildern in Form von öbjektmerkmalen (28) anhand von Trainings- büdern (20) zur Verwendung der erlernten Objektmerkmale in einem Bildverarbei- tungssystem, umfassend folgende Schritte:
- Bereitstellen von Trainingsbildem (20) und zugehörigen Annotationsbildern (22), wobei mindestens ein Trainingsbild (20) die Darstellung eines zu erlernenden Objektes enthält und die zugehörigen Annotationsbilder (22) an Positionen von Objekten im Trainingsbild (20) positive Annotationswerte (Annotationen) aufweisen sowie negative Annotationswerte an Bildpositionen annehmen, an denen kein zu erlernendes Objekt dargestellt ist;
~ Erstellen mindestens eines Merkmalsbildes (24) aus einem Trainingsbiid (20), wobei ein Merkmal an einer Bildposttton im Merkmalsbild (24) aus der Umgebung der entsprechenden Biidposltion im Trainingsbild (20) extrahiert ist;
- Erzeugen eines Klassifikationsbildes (26) aus dem Merkrnalsbild (24) und Öbjektmerkmalen, an dessen Bildpositionen Informationen (Kiassifikationsantworten) über den Ähniichkeitsgrad zwischen den Öbjektmerkmalen und dem Merkmaisbild (24) enthalten sind;
- Bestimmen eines Merkmalsbeitrages (30) des Trainingsbildes (20) zu den Öbjektmerkmalen durch gewichtete Summation von im Merkrnalsbild (24) enthaltenen Trainingsbild-Merkmalen mittels linearer Filteroperationen mindestens aus dem Annotationsbild (22), dem mindestens einem Merkrnalsbild (24) und dem mindestens einem Kiassifikationsbild (26).
Maschinelles Lernverfahren nach Anspruch 1 , dadurch gekennzeichnet, dass aus dem Annotationsbild (22) und dem Klassifikationsbild (26) ein Gewichtsbild (32) erzeugt wird, das als Filtermaske für die lineare Filteroperation des Merkmalsbildes (24) verwendet wird.
Maschinelles Lernverfahren nach Anspruch 2, dadurch gekennzeichnet, dass im Gewichtsbild (32) positive Gewichtungswerte an Bildpositionen erzeugt werden, an denen positive Annotationen vorhanden sind, jedoch das Kiassifikationsbild (26) dort eine zu geringe Klassifikationsantwort aufweist und negative Gewichtungswerte an Biidposiiionen erzeugt werden, an denen negative Annotationen vorhanden sind, aber das Klassifikationsbild (26) dort eine zu große Kiassifikationsantwort aufweist,
4. Maschinelles Lernverfahren nach Anspruch 3, dadurch gekennzeichnet, dass positive Gewichte des Gewichtsbildes (32) an einer Bildposition umso größer bestimmt werden, je kleiner die Kiassifikationsantwort an entsprechender Bildposition im Klassifikationsbild (26) ist und um so stärker negativ bestimmt werden, je größer die Klassifikationsantwort ist.
5. Maschinelles Lemverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die linearen Filteroperationen zur Bestimmung eines Merkmalsbettrages (30) unter Ausnutzung von Fourier-Transformationen im Frequenzraum erfolgen.
6. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass dieses einen Initialisierungsschritt aufweist, in dem initiale Objektmerkmale automatisiert geschätzt werden.
7. Maschinelles Lernverfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Bereitstellung von Trainingsbildem (20) und zugehörigen Annotationsbiidem (22) durch sensorbasierte Bildgewinnung und manuelle oder automatische Annotation erfolgt.
8. Maschinelles Lernverfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Bereitstellung von Trainingsbildem (20) und zugehörigen Annotationsbiidem (22) aufgrund synthetischer Bilderzeugung erfolgt.
9. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass aus einem Trainingsbild (20) mittels unterschiedlicher Arten von Merkmalsextraktionen mehrere Merkmalsbilder (24) erzeugt werden.
10. Maschinelles Lernverfahren nach Anspruch 9, dadurch gekennzeichnet, dass eine der Anzahl der erzeugten Merkmaisbilder (24) entsprechende Anzahl an Objektmerkmaien und Kiassifikationsbiidern (26) sowie Trainingsbild-Merkmalsbeiträgen bestimmt werden.
1 1. Maschinelles Lernverfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass dieses in einem Objekterkennungsverfahren verwendet wird.
12. Maschinelles Lernverfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass dieses in einem Objektverfolgungssystem verwendet wird.
13. Maschinelles Lernverfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass dieses bei einem Biidregistrierungsverfahren verwendet wird.
14. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10, mit
- einer Trainingsbildeinheit (12), die Trainingsbilder (20) und zugehörige Annotationsbilder (22) bereitstellt;
- einer Merkmalextraktionseinheit (14), die mindestens ein Merkmalsbild (24) aus einem Trainingsbild (20) erstellt;
- einer Klassifikationseinheit (16), die ein Kiassifikationsbild (26) aus dem Merk- malsbiid (24) und Objektmerkmalen (28) erstellt;
- einer Merkmaisfusionseinheit (18), um Sereiche des Merkmalsbildes (24) zur Bestimmung eines TrainingsbÜd-Merkmaisbeitrages (30) eines Trainingsbildes (20) zu den Objektmerkmalen (28) mittels linearer Filteroperationen gewichtet zu fusionieren.
15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, dass diese eine initialisie- rungseinheit umfasst, um eine initiale Bestimmung von Objektmerkmalen durchzuführen.
PCT/DE2012/100238 2011-09-14 2012-08-13 Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern WO2013037357A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP12769887.6A EP2756458A1 (de) 2011-09-14 2012-08-13 Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern
US14/344,390 US9361543B2 (en) 2011-09-14 2012-08-13 Automatic learning method for the automatic learning of forms of appearance of objects in images

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102011113154.3A DE102011113154B4 (de) 2011-09-14 2011-09-14 Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
DE102011113154.3 2011-09-14

Publications (1)

Publication Number Publication Date
WO2013037357A1 true WO2013037357A1 (de) 2013-03-21

Family

ID=47010116

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2012/100238 WO2013037357A1 (de) 2011-09-14 2012-08-13 Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern

Country Status (4)

Country Link
US (1) US9361543B2 (de)
EP (1) EP2756458A1 (de)
DE (1) DE102011113154B4 (de)
WO (1) WO2013037357A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914841A (zh) * 2014-04-03 2014-07-09 深圳大学 基于超像素和深度学习的细菌分割与分类方法及其应用

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9098741B1 (en) * 2013-03-15 2015-08-04 Google Inc. Discriminitive learning for object detection
CN107169571A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种特征筛选方法及装置
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
KR102481885B1 (ko) * 2017-09-08 2022-12-28 삼성전자주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
JP7167668B2 (ja) * 2018-11-30 2022-11-09 コニカミノルタ株式会社 学習方法、学習装置、プログラムおよび記録媒体
CN109740658B (zh) * 2018-12-28 2023-04-18 陕西师范大学 一种基于带权图的半监督图像分类方法
CN110929622B (zh) * 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421415B2 (en) * 2004-09-07 2008-09-02 Siemens Corporate Research, Inc. Methods and systems for 3D object detection using learning
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8588519B2 (en) * 2010-09-22 2013-11-19 Siemens Aktiengesellschaft Method and system for training a landmark detector using multiple instance learning

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ANTONIO TORRALBA ET AL: "Sharing Visual Features for Multiclass and Multiview Object Detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 29, no. 5, 1 May 2007 (2007-05-01), pages 854 - 869, XP011175348, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2007.1055 *
LEHRBUCH R.C.; GONZALES, R.E.: "Woods, Digital Image Processing", PEARSON PRENTICE HALL
RICHARD O DUDA ET AL: "Pattern Classification", 1 October 2000, JOHN WILEY & SONS, INC., ISBN: 978-0-471-05669-0, pages: Coverpg., vii - xv, XP002603980 *
See also references of EP2756458A1
THEODORIDIS S ET AL: "Pattern Recognition, Passage", 1 January 2009, PATTERN RECOGNITION, ACADEMIC PRESS, BURLINGTON, MA, US, PAGE(S) V - XIII,262, ISBN: 978-1-59749-272-0, XP002653079 *
VON R.C. GONZALES; R.E. WOODS: "Digital Image Processing", PEARSON PRENTICE HALL
YIJUN SUN: "Iterative RELIEF for Feature Weighting: Algorithms, Theories, and Applications", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 29, no. 6, 1 June 2007 (2007-06-01), pages 1035 - 1051, XP011179663, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2007.1093 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914841A (zh) * 2014-04-03 2014-07-09 深圳大学 基于超像素和深度学习的细菌分割与分类方法及其应用
CN103914841B (zh) * 2014-04-03 2018-03-09 深圳大学 基于超像素和深度学习的阴道细菌分割与分类系统

Also Published As

Publication number Publication date
US20140328537A1 (en) 2014-11-06
DE102011113154A1 (de) 2013-03-14
DE102011113154B4 (de) 2015-12-03
US9361543B2 (en) 2016-06-07
EP2756458A1 (de) 2014-07-23

Similar Documents

Publication Publication Date Title
DE102011113154B4 (de) Maschinelles Lernverfahren zum maschinellen Erlernen von Erscheinungsformen von Objekten in Bildern
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102007041893A1 (de) Verfahren zur Detektion und/oder Verfolgung von bewegten Objekten in einer Überwachungsszene mit Störern, Vorrichtung sowie Computerprogramm
EP2028605A1 (de) Detektionsverfahren für symmetrische Muster
DE102012111010A1 (de) Verfahren und Vorrichtung zur bildgestützten Landebahnlokalisierung
EP3511904B1 (de) Verfahren zum bestimmen einer pose eines objekts in einer umgebung des objekts mittels multi-task-lernens, sowie steuerungsvorrichtung
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
EP4121885A1 (de) Anonymisierungseinrichtung, überwachungsvorrichtung, verfahren, computerprogramm und speichermedium
DE102018205561A1 (de) Vorrichtung zur Klassifizierung von Signalen
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
EP1180258B1 (de) Mustererkennung mittels prüfung zusätzlicher merkmale nach teilverarbeitung
DE112017007247T5 (de) Bildverarbeitungsvorrichtung
DE102018100315A1 (de) Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk
DE102020209080A1 (de) Bildverarbeitungssystem
DE102014108492A1 (de) Verfahren zum Detektieren eines blickwinkelabhängigen Merkmals eines Dokumentes
DE102019129029A1 (de) System und verfahren zur objektdetektion
EP3576013A1 (de) Abschätzen eines verlaufs eines schienenpfads
DE102017104957A1 (de) Verfahren zum Bestimmen einer Bewegung von zueinander korrespondierenden Bildpunkten in einer Bildsequenz aus einem Umgebungsbereich eines Kraftfahrzeugs, Auswerteeinrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
DE102009060687A1 (de) Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten
EP0693200B1 (de) Verfahren zur klassifizierung von objekten
WO2019072451A1 (de) Verfahren zum verarbeiten von bildern
DE4495111C2 (de) Verfahren zur Bestimmung einer Menge von charakteristischen Merkmalen im Rahmen einer Objekterkennung
DE102019205440A1 (de) Lern-Verfahren zur winkelunabhängigen Objekterkennung für bewegliche und orts-feste Systeme

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12769887

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012769887

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14344390

Country of ref document: US