WO2013139754A1

WO2013139754A1 - Maschinelles bilderkennungsverfahren basierend auf einem ki-system

Info

Publication number: WO2013139754A1
Application number: PCT/EP2013/055611
Authority: WO
Inventors: Ernst Pechtl
Original assignee: Ernst Pechtl
Priority date: 2012-03-19
Filing date: 2013-03-19
Publication date: 2013-09-26
Also published as: DE102012005325A1

Abstract

Insgesamt beschreibt die Erfindung ein Verfahren zur maschinellen Erkennung von Bilddaten eines Gesamtbilds oder einer Abfolge von Bildern, charakterisiert durch die folgenden Schritte: - Erfassen des Bildes und dessen Aufteilung und Klassifizierung in Unterlelemente, also detaillierte Bildelemente anhand einer Bildelement- und/oder Bildobjekts-Merkmalsanalyse insbesondere hinsichtlich geometrischen Grundformen, Texturen, Farben, Material, Perspektive, wobei die Bildelement- und/oder Bildobjekts-Merkmalsanalyse durch analytische deterministische Softwaretechniken der Bildverarbeitung und Bildanalyse realisiert wird, insbesondere Fourier-Analyse, Kantenantastung, Farbanalyse und ähnliche; - Erkennen und Identifizieren der klassifizierten Bildelements- und/oder Bildobjekts-Merkmale unter Verwendung künstlicher Intelligenz, insbesondere eines neuronalen Netzes derart, dass den Bildelementen und/oder Bildobjekten jeweils eine oder auch mehrere beschreibende Textbezeichnungen zugeordnet werden; - Einspeisen der den Bildelementen und/oder Bildobjekten zugeordneten Textbezeichnungen in eine textuelle Wissensbasis, in welcher eine weitergehende Analyse der Beziehungen der Bildelemente und oder Bildobjekte zueinander und untereinander sowie zum Bild und/oder zu Teilen des Bildes mittels einer textbasierten Suchmaschine, insbesondere basierend auf einem neuronalen Netz derart vorgenommen werden, dass der Inhalt und Kontext des Bildes oder der Abfolge von Bildern ermittelt wird.

Description

Maschinelles Bilderkennungsverfahren basierend auf einem Kl-System

Die Erfindung betrifft ein maschinelles automatisiertes Bilderkennungsverfahren, welches zunächst ein zu analysierendes Gesamtbild, dessen Bildinhalt erkannt und identifiziert werden soll, in charakterisierende einzelne Bildelemente unterteilt, wofür zunächst insbesondere vorhandene Verfahren der software-technischen Bildanalyse herangezogen werden und in weiteren Schritten dann Systeme mit künstlicher Intelligenz, wie etwa neuronale Netze, welche nach dem Übergang zu einer textbasierten assoziativen Wissensbasis die Bilderkennung des gesamten Bildinhaites automatisch durchführen.

Die vorliegende Erfindung betrifft sowohl einzelne Bilder als auch eine Abfolge von Bildern bzw. Videos, aus denen in automatisierter Form der Kontext bzw. der Inhalt mit Hilfe von Softwaregestützten Analyseverfahren ermittelt wird.

Allgemeine Probleme jeder Art der maschinellen automatisierten Erkennung von Bildern, Bildinhalten und Bildobjekten sind zunächst natürlich die extrem hohen Anforderungen an Rechenkapazitäten, Speicherkapazitäten und Datenübertragungsraten, die durch eine matrix- oder netzartige Verarbeitung und Analyse über mehrere Hierarchieklassen hinweg vieler einzelner Bildelementmerkmale, Bildkontext-artig/Bedeutungsinhalt-artig zusammengefasste Bildelementgruppen (Meta-Elemente), geometrisch zusammenhängende Bildobjekte ( eta-Objekte), Teilen des Gesamtbildes bezüglich ihrer Korrelationen zueinander und untereinander sowie zum Kontext des Gesamtbildes exponentiell ansteigen. Weiterhin müssen einerseits für das Trainieren eines geeignet einzusetzenden Systemes mit künstlicher Intelligenz, also insbesondere eines neuronalen Netzes bereits eine umfangreiche Wissenbasis in einem dem System zugänglichen Speicher vorhanden sein; andererseits muss aber eine noch viel umfangreichere Wissenbasis während des eigentlichen Einsatzes des maschinellen Erkennungssystems, um einen zu analysierenden Bildinhalt maschinell automatisch zu erkennen, über einen extrem schnellem Speicherzugriff zur Verfügung stehen.

Gemäß der Erfindung wird ein vorteilhaftes Bilderkennungssystem bereitgestellt, wie durch das Verfahren von Anspruch 1 gelöst.

Nachfolgende Prozessschritte der Erfindung beziehen sich auf die Analyse eines Bildes (zur Unterscheidung von Elementen auch als „Gesamtbild" bezeichnet) oder Videos durch eine Kombination von Elementen der Bildanalyse mit Elementen der Textanalyse. Im Prinzip werden einzelne Elemente eines Bildes nach ihren Grundformen, Texturen, Farben, natürlichem oder künstlichem Wesen, Material sowie weiteren Merkmalen klassifiziert Dafür steht eine Wissensbasis (Grundwissen) innerhalb der Bildverarbeitung zur Verfügung.

Aus diesen Ergebnissen werden Gruppen solcher Elemente - Metaelemente gebildet, wo dies ein komplexeres Objekt ergibt.

Weiter wird der Kontext zwischen den einzelnen Elementen, zu den Meta-Elementen sowie zum Gesamtbild anaiyisert. Zudem wird das Bild als Gesamtheit analysiert hinsichtlich Perspektive, Horizont, Beleuchtungsart, Farben, Farbverläufen und -spektren. Kontrasten etc.

l Die Merkmale der gefundenen Elemente werden in einer gesonderten, textuellen Wissensbasis (welche beliebiges textueiles Wissen, wie Lexika, Fachliteratur o.ä. sein kann) daraufhin geprüft, welchen Objekten sie zugehörig sein können oder ob sie ggf. eigenständige Objekte sind. Dazu kann eine Taxonomie verwendet werden. Bedeutungsgehalte werden assoziativ ermittelt. Der Prozess ist stark rückgekoppelt, in Feedback-Schleifen wird das Ergebnis auf Widersprüche bzw. Übereinstimmungen geprüft und die Lösung mit den wenigsten Widersprüchen gewählt

Die Beziehung der einzelnen Elemente sowohl zueinander, als auch zum Gesamtbild, werden verarbeitet. Dieser Kontext wird auch mittels der textuellen Wissensbasis im selben Verfahren wie oben beschrieben, interpretiert.

So wird es möglich, das bereits in Form von Textdokumenten umfassend verfügbare Wissen - welches in ähnlicher Form im Bildbereich nicht existiert, für die Bildanalyse zu nutzen. Damit wird der Aufbau einer eigenen Bild-Wissensbasis nicht überflüssig, doch kann diese durch die textuelle Wissensbasis erheblich erweitert werden, insbesondere hinsichtlich des Bestimmens des Kontextes von Elementen.

Dadurch wird eine umfassende Bildanalyse möglich, die Präzision der Erkennung erheblich gesteigert. Das zusätzliche Element .Bewegung" in einem Video ergibt weitere Informationen zum Bildgeschehen und verbessert so die Präzision.

Die gefundenen Kontexte können in eine Kontext-Bibliothek eingestellt werden. Eine solche kann für ein breites Spektrum von Szenen bzw. Lebensbereichen angelegt werden, auch modular und sehr spezialisiert.

Im weiteren folgt eine detaillierte Beschreibung und nähere Erläuterung des erfindungsgemäßen Bilderkennungsverfahren, insbesondere anhand eines praktischen Fallbeispiels.

Prozeßphasen, dargestellt am Beispiel„Torbogen"

Zu analysieren sei nachfolgendes digitales Bild in Rg. 1: Das zu analysierende Gesamtbild, aus welchem zunächst die wesentlichen Elemente extrahiert werden, indem sie aufgrund der geometrischen Form, der Kanten, der Farbflächen und Farbverläufe, aufgrund von Kontrasten und Bildparametem (wie Auflösungsgrad. Farbe. Kontrast. Helligkeit. schwarz-weiß-Verteilung etc.) sowie deren Verändeungen selektiert werden, wobei insbesondere vorhandene Verfahren der Bildverarbeitung und Bildanalyse angewandt werden.

2.1 Erste Phase: Ermitteln der wesentlichen Elemente. Zunächst werden die einzelnen wesentlichen Elemente des Bildes extrahiert Die Elemente werden aufgrund der Form, der Kanten, der realen Farbflächen und -Verläufe, Kontraste als auch nach Veränderungen von Bildparametem (wie Auflösungsgrad, Farbe, Kontrast, Helligkeit, s w etc.) selektiert. Hier wird auf vorhandene Verfahren zurückgegriffen.

Beispiele: die weiße Räche am Boden mit ihrer unregelmäßigen Struktur resultiert aus der Farbflächenanalyse, die Fassade mit ihrem zweifarbigen Anstrich ebenso (könnte u.U. auch zusammengesetzt sein aus den Modulen hell und ocker). Die beiden Tore sind als Elemente mit deutlichen Konturen selektierbar.

Dies führt (vereinfacht) z.B. zu Elementen, wie sie in Fig. 2 beispielhaft dargestellt sind: Die Selektion der Bildelemente aus Fig. 1 führt dann zu separierten einzelnen Bildkomponenten, die hier in Rg. 2 dargestellt sind.

2.2 Zweite Phase: Merkmalsermittelung. Gesamtbild und alle Elemente werden nun parallel verarbeitet zur Ermittlung bestimmter Merkmale (Rg. 3): Die einzelnen Bildkomponenten werden nun alle parallel weiterverarbeitet, und auch solche Bildelemente, die mehrmals vorkommen, werden auch mit ihrer exakten Anzahl des Vorkommens im Gesamtbild parallel berücksichtigt.

Bei dem gewählten Beispiel könnte eine mögliche Abfolge der Analyseschritte (sowohl für die

Elemente als auch das Gesamtbild) wie folgt aussehen:

1. natürlich / künstlich?

2. Perspektive ja / nein?

3. Form /Struktur

4. Farbe, Farbverlauf

5. Oberfläche, Textur

6. ... weitere Merkmale

Somit ergibt sich folgende erste Phase gemäß Fig. 4 und Rg. 4A: Alle nunmehr parallel betrachteten Einzelelemente des Gesamtbildes sowie auch gleichzeitig das Gesamtbild welches all diese Einzelbildelemente enthält, werden nun einer weiteren Bildobjekt-Merkmalsanalyse unterzogen und mit genauer beschreibenden textuelten Attributen versehen, wobei hierfür nun bereits zumindest teilweise - neben den vorhandenen deterministisch-analytischen Bildanalyseverfahren - ein anhand von (bekannten) Trainingsbeispielen trainiertes l-System wie etwa das neuronale Netz des Apollo- Systems herangezogen wird, welches dann Unterscheidungen erlaubt, wie z.B. ob ein Bildobjekt von natürlicher oder künstlicher Natur ist, ob eine perspektivische Darstellung im Bild vorliegt, wo im Bild ein (mittlerer) Horizont ermittelt werden kann, wodurch ein Bodenbereich festgelegt werden kann; weiterhin werden Unterscheidungen getroffen bezüglich Formen und Strukturen der Bildelemente, basierend auf Basiswissen über allgemtne geometrische Formen und Strukturen, wie etwa etwaige Symmetrien, Rundungen, Bögen, Kreislinien, Vielecke, Rasterungen, Schattierungen, Helligkeiten, Farbverläufe, Texturen etc. sowie insbesondere bei ausgedehnten Rächen wird - neben ihrer Farbe und ihrem Farbverlauf - in Betracht gezogen, ob sie oberhalb oder unterhalb der Horizontlinie liegt, ob sie regelmäßig oder unregelmäßig geformt ist (FFT-Analyse), ob sie regelmäßige oder unregelmäßige Texturen aufweist, und wenn ja in welchen Bereichen dieser Fläche sich diese befinden.

In Schritten 1. und 2. wird jeweils eine ja nein Entscheidung getroffen. In Schritten 3., 4., 5. gibt es jeweils ein verbal beschreibbares Resultat.

Beispiele:

a) Natürlich oder künstlich? Diese Analyse wird beim Gesamtbild und bei jedem der Elemente durchgeführt. Sie führt hier bei vier Elementen zu positiven Resultaten: den drei Menschen und dem Schnee. Beim Gesamtbild ist eine einheitliche Aussage nicht möglich. Diese Unterscheidung ist möglich nach Training des Systems (Apollo). Dabei lernt die Software anhand von Trainingsbetspielen die für eine Unterscheidung relevanten Merkmale eigenständig. b) Perspektive ja/nein? Diese wird beim Gesamtbild z.B. mittels Fluchtlinien ermittelt (siehe Fig.

5). Dies führt hier zu folgendem Ergebnis:

Es gibt eine Perspektive. Ein Horizont ist definierbar, welcher das Bild einteilt. Die Auswertung dieses Ergebnisses folgt in einer nächsten Phase (z.B. Definieren des unteren Teiles als Boden). Bei den Elementen ist eine Perspektive nicht erkennbar (mit Ausnahme des zweiten Torbogens, dort jedoch aufgrund der geringen Größe und Bildqualität kaum sicher zu ermitteln.

Die vorherige Fig. 4 zeigte also die in Einzelbildelemente aufgetrennten Bildinhalte des Gesamtbildes, die wie oben beschrieben parallel und einzeln weiterverarbeitet und analysiert werden, und hier in Fig. 5 wird nun die oben bereits angedeutete ebenfalls parallel ablaufende Bewertung und Analyse des Gesamtbildes unter Berücksichtigung der einzelnen Bildelemente, welche nunmehr bereits näher textuell charakterisiert und klassifiziert wurden am Beispiel der Entscheidung, ob eine Perspektive im Gesamtbild vorliegt, veranschaulicht Eine solche Perspektive ist natürlich in den Einzelbildelementen nicht erkennbar, aber im Gesamtbild können beispielsweise mittels Kantenantastung - auch gemittelte - Fluchtlinien identifiziert werden wie auch eine - auch gemittelte - Horizontlinie identifiziert werden kann, welche das Gesamtbild in einen oberen und einen unteren Bereich einteilt. Insbesondere hier werden deterministischanalytische Bildanalyseverfahren und oder anhand hierarchisch klassifizierter Taxonomien bestehend aus Beispiel-Wissensbasen trainierte Kl-Systeme wie Apollo gegebenfalls gleichzeitig angewendet. c) Form/Struktur. Betrachten wir eines der Bogenfenster. Ergebnis der Analyse (basierend auf Basiswissen zu Strukturen...): Symmetrisch, Halbbogen oben, gerastert, dunkel (vorher war schon ermittelt worden, dass es sich um ein künstliches Objekt handelt). d) Form/ Struktur. Betrachten wir ein anderes Beispiel, die weiße Fläche. Bereits aus der Festlegung des Horizontes ist klar, dass es sich um eine Fläche„unten" handelt, also evtl. den Boden. Ergebnis der Form- und Strukturanalyse (siehe Fig. 6):

a. unregelmäßig geformt

b. Textur ohne regelmäßige Struktur, unregelmäßige Form in der Mitte.

Hier in Fig. 6 ist also nun nochmal eines der Einzelbildelemente bzw. der Bildobjekte aus Fig. 4 herausgegriffen, nämlich die größtenteils weiße Räche des Bodenbereiches des Gesamtbildes, womit nochmal die Einzelbildelement-Analyse beispielhaft hervorgehoben werden soll bezüglich Farbe, Farbverlauf, sowie bezüglich der als unregelmäßig erkannten geometrischen (Umriß-) Form, bezüglich der als unregelmäßig strukturiert erkannten Textur und den als unregelmäßig und anders gearteten Formen, die in der Mitte dieses Bildelementes erkannt werden (wobei es sich um die die nur teilweise sichtbaren Personen handelt, was das System zu diesem Zeitpunkt aber noch nicht definiert hat). e) Farbe, Farbverlauf. Die Analyse ergibt eine flächige Anordnung aus Ocker und einem hellem Farbton. f) Textur (siehe Fig. 7): Hier ist also nun nochmal ein anderes der Einzelbildelemente aus Fig. 4 herausgegriffen, nämlich der große und im Gesamtbild dominierende Torbogen, womit abermals die Einzelbildelement-Analyse beispielhaft hervorgehoben werden soll, hier nunmehr in Bezug auf die Erkennung einer komplexen Textur innerhalb einer als stark symmetriebehafteten geometrischen Form - nämlich des schmiedeeisernen Torbogens, was das System aber zu diesem Zeitpunkt noch nicht so genau weiß, bis dahin (er-)kennt es nur die Torbogengeometrie, also Rechteck plus Halbrundung und eine filigrane komplexe Textur im Inneren dieser geometrischen Form .

2.3 Dritte Phase: Meta Elemente erkennen

In dieser Phase werden die erkannten Merkmale verarbeitet, insb. durch Ermittlung der Beziehungen zwischen den Elementen und der Anordnung der Elemente innerhalb des Kontexts des Gesamtbildes. Die textuellen Ergebnisse der Schritte 3, 4 und 5 für Elemente werden in ein assoziatives Textsystem mit jnverser" Taxonomie eingespeist, in einer textuellen Wissensbasis verarbeitet und versehen so die Elemente mit Bedeutungsgehalt. a) Betrachten wir nochmals die Bogenfenster (siehe Fig. 8): Hier in Fig. 8 wird nun das nächste einzelne Bildelement aus der Fig. 4 herausgegriffen, und zwar ein weniger komplexes „kleineres", nämlich das Bogenfenster, was das System ja erst noch als solches erkennen muss, bisher (er-)kannte es ja nur anhand der speziellen geometrischen Form und Größe (wieder wie in Fig. 7 ein Rechteck mit einem Halbbogen oben, aber diesmal kleiner), Farbe und Helligkeit (dunkel), charakteristischen Textur (gerastert), Symmetrie (achsensymmetrisch), dass es sich um ein Einzelbildelement handelt, welches mehrmals im Gesamtbild vorkommt.

Ergebnis der bisherigen Analyse (basierend auf Basiswissen zu Strukturen...):

Symmetrisch, Halbbogen oben, gerastert, dunkel. Nun folgen kontextuelle Analysen sowohl der Elemente untereinander, als auch ihres Bezugs zum Gesamtbild und ihrer Position im Gesamtbild: a » Vergleich mit den anderen Elementen, Bestimmung der Häufigkeit ähnlicher

Elemente. Ergebnis: mindestens vier sehr ähnliche Objekte kommen im Bild vor. b. » Prüfung der Regelmäßigkeit ihrer Anordnung. Ergebnis: strukturiert, regelmäßig, in zwei Reihen übereinander angeordnet je drei Achsen bildend, getrennt durch senkrechte regelmäßige Elemente.

c. » Prüfung weiterer Objekte innerhalb der regelmäßigen Struktur führt zu zwei

weiteren, sehr ähnlichen Figuren in der Mitte des Bildes (mittleres Fenster und kleiner Torbogen) und zwei weniger ähnlichen (untere Fenster links und rechts, siehe nachstehende Fig. 9):

Hier in Fig. 9 nun alle als ähnlich erkannten Einzel-Bildelemente in dieser Figur aufgelistet, die dadurch als ähnlich erkannt wurden, dass sie alle die gleiche

(Achsen-) Symmetrie, etwa die gleiche Form und Textur aufweisen, wobei zur Beurteilung des Grades der Ähnlichkeit der Einzel-Bildelemente die Größe der Einzel-Bildelemente zunächst nicht herangezogen wird.

Diese Fensterelemente zusammen bilden ein Meta-Element, welches in seinem Bedeutungsgehalt untersucht wird. Dies erfolgt durch die Nutzung der bisher gewonnen Begriffe und Adjektive. Sie werden als .Search Terms" in eine assoziative Search Engine eingespeist: „quadratisch, Halbbogen, Gitter, dunkel, zwei Reihen, drei Achsen" etc. Es werden Objekte in der textuellen Wissensbasis gesucht, welche der Summe der genannten Merkmale am ähnlichsten sind. Diese Ähnlichkeit wird durch zwei Methoden festgestellt:

- die meisten Übereinstimmungen und

- die wenigsten Widersprüche.

(Welche der beiden Methoden den Ausschlag gibt, ist situationsabhängig manuell oder automatisch festzulegen und hier nicht ausschlaggebend).

Als Ergebnisse werden ermittelt: Kirche, Kathedrale, Schloß, Fenster, Fassade, College, Palazzo, Gebäude u.ä. Daraus wird eine Taxonomie gebildet Diese systematisiert die Begriffe, welchen verschiedenen Bereichen, Abstraktionsebenen (Fenster > Fassade > Gebäude > Gebäudetypen Schloß, College, Kirche » Kathedrale u.ä.) etc. angehören.

Diese Objekte sind Hypothesen für den Bildinhalt. Sie werden nun nacheinander mit dem Gesamtbild wie auch mit dem Meta-Element verglichen mit dem Ziel, die Objekte nach dem geringsten Grad von Widersprüchen zu bewerten und einzuteilen. (Kathedrale z.B. würde das Merkmal Spitzbogenfenster ergeben, welches als Widerspruch zu dem Halbbogen dieses Merkmal ausschließt).

Der Vergleich der im Beschreibungstext enthaltenen Elemente ergibt folgendes Ranking:

- Schloß

• College

- Palazzo

- Kirche.

Femer sollen alle diese bis zu diesem Zeitpunkt vom maschinellen System als ähnlich erkannten Einzel-Bildelemente nun als sogenanntes Meta-Element zu einer übergeordneten gemeinsamen Klasse von identifizierten Bildobjekten zusammengefaßt und mit einem oder mehreren charakterisierenden textuell beschreibenden Oberbegriff(en) versehen werden. Um diesen charakterisierenden Oberbegriff zu ermitteln (hier soll selbstverständlich z.B. unter anderem„Fenster" herauskommen), werden nun alle bisher ermittelten Attribute aller als ähnlich identifizierten Bildelemente als„search terms" oder .keywords" in eine assoziative textbasierte .Search engine" eingespeist; in diesem Fall werden also die .Keywords" für die (Text-) Suchmaschine etwa lauten: quadratisch, Halbbogen, Gitter, dunkel, zwei Reihen, drei (Symmetrie-)Achsen, etc. Nun werden maschinell Objekte in dieser assoziativen textuellen Wissenbasis gesucht, welche der „Summe" der genannten Bildelement-Attribute am ähnlichsten sind bzw. welche im Mittel am signifikantesten mit diesen Attributen assoziiert werden können. Oieser Ähnlichkeitsgrad oder diese Signifikanz der Korrelation der Attribute mit den zunächst als Arbeitshypothese von der textbasierten Suchmaschine aufgefundenen Objekten/Objektvorschlägen wird nun weitergehend geprüfft. sodass eine Rangfolge der zunächst hypothetischen Objektvorschläge der Suchmaschine ermittelt werden kann.Zu diesem Zweck werden zwei insbesondere statistisch mittelnde Methoden herangezogen, zum einen die Überprüfung auf eine möglichst große Anzahl und möglichst große Qualität an Übereinstimmungen, und zum anderen die Überprüfung auf möglichst wenig und möglichst geringfügige Widersprüche.

Dadurch könnte die textbasierte Suchmaschine dann als Ergebnis beispielsweise die folgenden (Ober-)Begriffe liefern: Kirche, Kathedrale, Schloß, Fenster, Fassade, College, Palazzo, Gebäude und oder ähnliches. Weiterhin wird diese auf einer in eine hierarchische Taxonomie klassifizierte textuelle assoziative Wissenbasis fußende Suchmaschine insbesondere unter Zuhilfenahme eines Kl-Systems wie eines neuroalen Netzes die gefundenen Begriffe auch systematisieren z.B. in hierarchisch gegliederten Abstraktionsebenen, wie etwa nach der tatsächlichen Größe und oder auch nach der gegliederten Integration in eine größere übergeordnete Struktur: Also beispielsweise: Fenster Gebäude>Gebäudetypen (Schloß, College, Kirche » Kathedrale). Alle diese vorläufig erkannten Meta-Elemente sind nun Hypothesen für den Bildinhalt bzw. für Komponenten des Gesamtbildinhaltes. Diese Arbeitshypothesen werden nun nacheinander mit dem Gesamtbild wie auch mit (allen) separierten eta-Elementen verglichen mit dem Ziel, die Objekte nach dem geringsten Grad von Widersprüchen in eine Rangfolge der Signifikanz anzuordnen. Hier könnte (und sollte) sich aufgrund solcher Vergleiche eine Rangfolge ergeben wie etwa Schloß » College»Palazzo»Kirche. Nun folgt eine Analyse von Farbflächen Fig. 11 :

Im nächsten Schritt werden dann z.B. die Farbflächen nochmals analysiert und ebenfalls in diese Vergleichsoperationen zur Widerspruchsmtnimierung eingebunden, um die Rangfolge der ermittelten Arbeitshypothesen weiter zu präzisieren.

Diese Fläche wird mit den ermittelten Hypothesen Schloß, College, Palazzo, Kirche verglichen auf die jeweilige Zahl der Widersprüche. Die Farben stehen nicht im Widerspruch zu einem Gebäude.

Es ergeben sich keine signifikanten Widersprüche, die Kirche erhält die geringste Wahrscheinlichkeit.

Nächster Schritt: die Analyse des (durch den Horizont als solchen ermittelten) Bodens (siehe Fig. 11):

Die Attribute ergeben: weiß, teilweise glatt, teilweise unregelmäßig strukturiert, unregelmäßig begrenzt, ...

Diese Attribute werden nun ebenfalls in Taxonomien eingespeist. Objekte mit diesen Eigenschaften in Verbindung mit„Boden" sind: Marmor, Schnee, Teppich, ....

Diese Objekte sind Hypothesen für den Bildinhalt. Sie werden nun nacheinander mit dem Gesamtbild wie auch mit dem Meta-Element verglichen mit dem Ziel, die Objekte nach dem geringsten Grad von Widersprüchen zu ranken.

- Weißer Teppich: Aufgrund der Natürlichkeit, welche bereits in Phase 1 festgestellt worden ist, gibt es hinsichtlich des Teppichs einen Widerspruch, ebenso aus der Oberflächenstruktur. Auch aus dem Schneefall (s. unten) folgt ein Widerspruch zu Teppich, welcher nicht im Außenbereich verwendet wird.

- Weißer Marmor Die fehlende Struktur ist ein Widerspruch, ebenso wie die teils sehr zerklüftete Oberfläche.

- Schnee: Die Unregelmäßigkeit der Oberfläche ist ein wichtiges Merkmal, welches für Schnee spricht. Schnee wäre jedenfalls dann bestätigt, wenn es schneien würde. Das System prüft also: finden sich Hinweise auf Schneefall? Dazu wird er Bildteil oberhalb des Horizonts untersucht, speziell die Bereiche vor dunklen Flächen, da sich dort Schneeflocken am besten erkennen lassen.

Auf dem linken Bildausschnitt finden sich tatsächlich weiße Flocken verteilt auf dem gesamten Bild. Auf dem rechten jedoch nicht. Da Schneeflocken in einem Teilbereich vorkommen können, in einem anderen nicht, ist die Schnee-Hypothese bestätigt Denn umgekehrt schließt das Fehlen von Flocken in einem Bildteil das Vorkommen in einem anderen nicht aus (siehe Fig. 12).

Die Berücksichtigung der Widersprüche ergibt folgendes Ranking nach dem Grad der Wahrscheinlichkeit:

- Schnee (sehr hoch)

- Marmor (gering)

- Teppich (sehr gering)

In diesem Schritt (Fig. 12) wird nun also z.B. die Analyse des Bodens (welcher durch vorangegangenes Auffinden einer Horizontünie im Gesamtbild als solcher erkannt wurde) auch in diese Widerspruchs-minimierenden und Übereinstimmungs-maximierenden Vergleichsoperationen zwischen den Meta-Elementen untereinander und mit dem Teil- oder Gesamtinhalt des ganzen Bildes mit einbezogen, um die Signifikanz der Rangfolge auch der diesbezüglichen Hypothesen bzgl. des erkannten Bildinhaltes weiter zu präzisieren. So etwa werden die für die als Bodenbereich identifizierte Bildregion gefundenen Attribute (weiß, teilweise glatt, teilweise unregelmäßig strukturiert, unregelmäßig begrenzt) ebenfalls in Taxonomien eingespeist und diese assoziativen hierarchisch klassifizierten textuellen Wissenbasen (Suchmaschinen) könnten dann mit großer Wahrscheinlichkeit signifikante Korrelationen zu Objekten herstellen, wie Marmor, Schnee, Teppich, was nun wiederum Hypothesen darstellt, diesmal für den Bodenbereich des Bildes.

Auch diese Hypothesen für den Boden werden nun wieder mit dem Gesamtbild und allen Meta-Elementen verglichen, mit dem Ziel, die Objekte nach dem geringsten Grad an Widersprüchen bzw. dem höchsten Grad an Übereinstimmungen in einer Rangfolge anzuordnen. Aufgrund der vorher erkannten Natürlichkeit des Bodenbereiches und aufgrund der unregelmäßigen Oberflächenstruktur und aufgrund des Schneefalles im (Gesamt-)Bild, wodurch auf Außenbereich geschlossen werden kann, stellt sich ein Widerspruch zur Hypothese .Teppich" ein. Fehlende Struktur und zerklüftete Oberfläche bzw. Umrandung führt zu einem Widerspruch zur Hypothese„Marmor". Dafür spricht die Unregelmäßigkeit des Bodenbereiches für eine Schneefläche und die Oberprüfung auf Schneefall im (Gesamt-)Bild fällt ebenfalls positiv aus (kleine weiße Recken auf dem ganzen Bild oder zumindest großen Teilenbereichen davon deuten auf Schneeflocken hin, die sich insbesondere vor den dunkeln Bereichen in der Bildhälfte oberhalb des Horizontes abheben). Somit ergibt sich hier eine Rangfolge derart: Schnee » Marmor » Teppich. In Fig. 12 wird der Ausschnitt des Gesamtbildes hervorgehoben, der am geeignetesten dafür ist, die maschinelle Überprüfung auf etwaigen vorliegenden Schnellfall im Bild zu überprüfen. Eventuell kann hierbei auch ein manueller Eingriff bei der Auswahl solcher gezielt gewählten Bildausschnitte insbesondere in der Trainingsphase des Kl-Systems vorgesehen sein. c) Gruppe der Personen (bleibt auszuführen)

Stichworte: Silhouetten und Kopfform führen zu Personen. Kein Gesicht erkennbar > von hinten. d) Vordergrund: Torbogen (bleibt auszuführen)

Stichworte: Aus der festgestellten Perspektive folgt, dass es sich um eine Art Tunnel handelt mit erkennbaren Strukturen an der Decke (werden bei helleren Bildern deutlicher), an der Öffnung ein sehr heller Anteil ...

Die Abfolge der Analyseschritte ist vereinfacht dargestellt Sie ist rückgekoppelt und daher variabel und wird vom System selbst gesteuert. Allgemein: Jede Hypothese kann mit Zwischenergebnissen anderer Schritte verglichen werden, so dass sich ein matrix- bzw. netzartiges Vorgehen ergibt.

Diese Vorgehensweise ist prinzipiell analog bei einem Video. Die diesem kommt noch die Analyse der Veränderungen im Zeitablauf hinzu.

2.4. Vierte Phase: Kontext ermitteln und Ergebnisse

Fig. 1 zeigt das Gesamtbid und listet das Ergebnis der Bilderkennung, in Form eines Wahrscheinlichkeitsrankings der erkannten Bildobjekte:

1. Schloß » College » Palazzo o.ä.

2. Menschen (von hinten) auf Weg zu 1.

3. Aus Torbogen kommend.

Die beigefügten Figuren erläutern rein beispielhaft die vorliegende Erfindung. Fig. 1 : Das zu analysierende Gesamtbild.

Fig. 2: Die Selektion der Bildelemente aus Fig. 1 führt dann zu separierten einzelnen Bildkomponenten, die hier dargestellt sind.

Fig. 3: Die einzelnen Bildkomponenten werden nun alle parallel weiterverarbeitet, und auch solche Bildelemente, die mehrmals vorkommen, werden auch mit ihrer exakten Anzahl des Vorkommens im Gesamtbild parallel berücksichtigt.

Fig. 4: Alle nunmehr parallel betrachteten Einzelelemente des Gesamtbildes sowie auch gleichzeitig das Gesamtbild welches all diese Einzelbildelemente enthält, werden nun einer weiteren Bildobjekt- erkmalsanalyse unterzogen und mit genauer beschreibenden textuellen Attributen versehen.

Rg.5: Hier wird nun die ebenfalls parallel ablaufende Bewertung und Analyse des Gesamtbildes unter Berücksichtigung der einzelnen Bildelemente, welche nunmehr bereits näher textuell charakterisiert und klassifiziert wurden am Beispiel der Entscheidung, ob eine Perpektive im Gesamtbild vorliegt, veranschaulicht

Rg, 6: Hier ist nun nochmal eines der Einzelbüdelemente aus Fig. 4 herausgegriffen, nämlich die größtenteils weiße Räche des Bodenbereiches des Gesamtbildes, womit nochmal die Einzelbildelement-Analyse beispielhaft hervorgehoben werden soll.

Rg. 7: Hier ist nun nochmal ein anderes der Einzelbüdelemente aus Fig. 4 herausgegriffen, nämlich der große und im Gesamtbild dominierende Torbogen, womit abermals die Einzelbildelement-Analyse beispielhaft hervorgehoben werden soll.

Fig. 8: Hier wird nun das nächste einzelne Bildelement aus der Rg. 4 herausgegriffen, und zwar ein weniger komplexes „kleineres", nämlich das Bogenfenster, welches mehrmals im Gesamtbild vorkommt

Rg, 9: Hier werden nun alle als ähnlich erkannten Einzel-Bildelemente in dieser Figur aufgelistet

Gemäß der Erfindung sollen alle diese bis zu diesem Zeitpunkt vom maschinellen System als ähnlich erkannten Einzel-Bildelemente, sollen nun als sogenanntes eta-Etement zu einer übergeordneten gemeinsamen Klasse von identifizierten Bildobjekten zusammengefasst und mit einem oder mehreren charakterisierenden textuell beschreibenden Oberbegriff(en) versehen werden, die zunächst von der Maschine als Arbeitshypothesen betrachtet werden.

Diese Arbeitshypothesen werden nun nacheinander mit dem Gesamtbild wie auch mit (allen) separierten Meta-Elementen verglichen mit dem Ziel, die erkannten Objekte nach dem geringsten Grad von Widersprüchen in eine Rangfolge der Signifikanz anzuordnen. Hier könnte (und sollte) sich aufgrund solcher Vergleiche eine Rangfolge ergeben wie etwa Schloß » College»Palazzo»Kirche.

Rg. 10: Im nächsten Schritt werden dann z.B. die Farbflächen nochmals analysiert und ebenfalls in diese Vergleichsoperationen zur Widerspruchsminimierung eingebunden, um die Rangfolge der ermittelten Arbeitshypothesen weiter zu präzisieren.

Fig. 11: Im weiteren nächsten Schritt wird nun z.B. die Analyse des Bodens (welcher durch vorangegangenes Auffinden einer Horizontlinie im Gesamtbild als solcher erkannt wurde) auch in diese Widerspruchs-minimierenden und Übereinstimmungs-maximierenden Vergleichsoperationen zwischen den Meta-Elementen untereinander und mit dem Teil- oder Gesamtinhalt des ganzen Bildes mit einbezogen, um die Signifikanz der Rangfolge auch der diesbezüglichen Hypothesen bzgl. des erkannten Bildinhaltes weiter zu präzisieren. Es ergibt sich hier eine Rangfolge derart: Schnee » Marmo » Teppich.

Fig. 2: Hier wird der Ausschnitt des Gesamtbildes hervorgehoben, der am geeignetesten dafür ist, die maschinelle Überprüfung auf etwaigen vorliegenden Schnellfall im Bild zu überprüfen. Eventuell kann hierbei auch ein manueller Eingriff bei der Auswahl solcher gezielt gewählten Bildausschnitte insbesondere in der Trainingsphase des Kl-Systems vorgesehen sein.

Gemäß Figur 1 wird das Ergebnis der Bilderkennung in Form eines Wahrscheinlichkeitsrankings der erkannten Bildobjekte gelistet:

4. Schloß » College » Palazzo o.ä.

5. Menschen (von hinten) auf Weg zu 1.

6. Aus Torbogen kommend.

Die vorliegende Erfindung ist insbesondere nicht nur für Einzelbilder sondern auch für eine Abfolge von Bildern bzw. ein Video ausgerichtet, um den Inhalt eines Videos automatisiert zu ermitteln. Gemäß der Erfindug können Objekte ähnlich wie bei einem virtuellen Gehirn ermittelt werden, wobei ein Tagging nicht verwendet wird. Gemäß der Erfindung werden neuro-biologische Prozesse angewendet, so dass dadurch ein einfaches Training für die Anpassung an neue Aufgaben ausreichend ist Gemäß der Erfindung können bei Videos ähnliche Objekte und ähnliche Szenen ermittelt werden, wobei jegliche Art von akustischen Signalen ebenso analysiert und ermittelt werden können. Dies gilt sowohl für herkömmliche 2D- Videos als auch für 3D- Videos.

Zum Erkennen von Objekten oder Szenen ist ein einfaches und schnelles Training ausreichend, wobei die Merkmale der Objekte vollkommen automatisch extrahiert werden. Dazu sind keine festen Voreinstellungen erforderlich, können jedoch vorgenommen werden. Das Training kann durch einen User ohne jegliche Programmierung erfolgen, wobei dies insbesondere in der gleichen Objektkategorie möglich ist Die Ergebnisse können zurückverfolgt werden und daher kann die Präzision auf einfache Art und Weise optimiert werden.

Die Software zur automatischen Bilderkennung kann herkömmliche Computer, Windows oder Unix verwenden, welche auch mehrere Videos parallel verarbeiten können. Gemäß der Erfindung können auch MPP-Computer (beispielsweise Exergy) verwendet werden, um in extrem kurzer Zeit Ergebnisse zu erzielen, innovative Anwendungen zu ermöglichen und die Kosten und Ressourcen zu reduzieren.

Zur erfindungsgemäßen Videoerkennung wird ein Preprocessing-Toolkit in Verbindung mit einem neuronalen Netz venvendeL Insbesondere werden die einzelnen Bilder eines Videos in Segmente aufgeteilt, anschließend daran einzelne Merkmale extrahiert und in einem Normalizer verarbeitet, wobei unter Verwendung von Vektoren und eines entsprechenden neuronalen Netzes Einzelergebnisse erzielt werden und klassifiziert werden, um die Objekte des Ausgangsbildes bzw. das Gesamtbild zu erkennen.

Für die Objekterkennung wird auch auf eine Positionsveränderung, auf eine Skalierungsveränderung und eine Drehung Bezug genommen, so dass es beispielsweise unerheblich ist, ob innerhalb eines Videos ein Mensch sich von einer Kamera wegbewegt. Dabei ist es gemäß der Erfindung möglich, das zu ermittelnde Objekt auch dann zu erfassen, wenn beispielsweise aufgrund einer Drehung das Objekt nur teilweise sichtbar ist oder andere Qualitätseinbussen vorliegen.

Gemäß der Erfindung wird als erster Schritt eine Wissensbasis erzeugt, welche auf einer automatischen Extraktion der Merkmale von Trainingsobjekten basiert Als zweiter Schritt können die zu erfassenden Objekte aufgrund der Wissensbasis ermittelt und gemäß ihrem Inhalt klassifiziert werden bzw. als Text ausgegeben werden.

Gemäß einer bevorzugten Ausführungsform können Keywords für die Suche verwendet werden, wobei gemäß der Erfindung die Ergebnisse in Abhängigkeit von Ähnlichkeiten ermittelt bzw. gerankt werden.

Als Videoformate können MPEG II, AVI, H264-Codec verwendet werden. Als Hardware ist Quadcore und 8 GB RAM Win7/2008 ausreichend.

Für das Training pro Szene sind in etwa ein bis zwei Minuten ausreichend. Für die Klassifikation pro Szene (25 bis 100 MB) werden ca. eine Minute benötigt. Das Preprocessing für 50 bis 100 MB beträgt für das zu konvertierende Video in einzelne Rahmen ca. ein bis zwei Minuten. Mit Hilfe von MPP Computern ist eine Realtime-Analyse und ein Streaming möglich.

Einzelne Bildbearbeitungsmodule können wie folgt strukturiert sein:

Die Merkmalsextraktion extrahiert mehrere Merkmale aus den Bildern und Videofiles. Das Preprocessing umfasst zusätzliche Algorithmen zur Vorverarbeitung von Bildern und Videofiles. Neurobiologische Netzwerkmodule können für den Klassifizierungsprozess und für die Entwicklung von Algorithmen von hoher Performance verwendet werden. Die Klassifizierung kann als Multilayer- Klassifizierungsprozess ausgebildet sein.

En Merkmalstool kann eine Internetrecherche bzw. eine Internetsuchmaschine und Klassifizierung umfassen. Die Videoverarbeitung kann entsprechende Tools und Analysen von verschiedenen Videoarten verwenden, wobei in sehr grossen Datenstrukturen recherchiert werden kann. Insbesondere kann ein erweitertes Trainingstool verwendet werden.

Die Erfindung basiert insbesondere auf der Erfassung des Inhalts einer Szene, wobei eine Textanalyse und eine Soundtrackanalyse vorgenommen wird. Insbesondere können für die Erfindung auch herkömmliche Computer oder ein iPhone oder ein iPad unter Verwendung der Apollo- Videosoftware verwendet werden. Gemäß der Erfindung können auch Inhalte von Femsehstationen bzw. Fernsehsendungen analysiert und ermittelt werden, wobei eine Spracherfassung, eine Objekterfassung, eine Gesichtserkennung, Logoerkennung, Szenenerkennung und ähnliches verwendet werden kann. Ferner kann der Anfangsund Endpunkt eines Videos bzw. einer Fernsehsendung verwendet werden.

Gemäß einer weiteren Ausführungsform der Erfindung können Trailer automatisch für einzelne Spielfilme erzeugt werden. Gemäß der Erfindung kann der Videoinhalt im Hinblick auf Musik, Sprache und jegliche Art von Sound recherchiert werden.

Für die Recherche können Datenbanken und Apps zur Ermittlung eines Videos verwendet werden.

Ais weiteres Beispiel der Erfindung kann eine elektronische Bedienungsanleitung generiert werden, wobei hierzu beispielsweise ein Photo eines Smartphones verwendet werden kann. Hierzu werden die Informationen mit Hilfe eines Dialogs hinsichtlich des Bedarfs des Nutzers verwendet, wobei neben der Bilderkennung auch ein semantisches Verständnis des Textes bzw. der Sprache erforderlich ist.

Gemäß der Erfindung wird eine Lösung bereitgestellt, welche es ermöglicht, dass von einer Bildanalyse zu einem Text und wiederum zu einer Sprache umgeschaltet bzw. umgewandelt werden kann, je nach Erfordernis.

Gemäß der Erfindung können für Logistikaufgaben auch der Verlust von Objekten bzw. Gegenständen oder Prozessfehler ermittelt werden, wobei eine Echtzeitanalyse von Videodaten vorgenommen werden kann.

Gemäß einem weiteren Beispiel kann die Erfindung auch auf Satellitendaten zurückgreifen, um die aktuelle Verkehrsdichte zur Echtzeitermittlung der Luftverschmutzung zu ermöglichen.

Gemäß einer weiteren Ausführungsform der Erfindung kann auch ein Cloud-Verfahren verwendet werden, wobei Filme in der Cloud hochgeladen werden und nach der erfindungsgemäßen Verarbeitung verändertes Video und mit entsprechender Bilderkennung aus der Cloud wieder heruntergeladen werden kann.

Gemäß einer weiteren Ausführungsform der Erfindung können Textdaten mit Hilfe von Keywörtern recherchiert werden. Ferner können Videodaten ohne Struktur recherchiert werden, wobei als Lösung gemäß der Erfindung eine Vielzahl von Kategorien unter Ausbildung einer Bibliothek verknüpft werden können.

Insgesamt beschreibt die Erfindung ein Verfahren zur maschinellen Erkennung von Bilddaten eines Gesamtbilds oder einer Abfolge von Bildern, charakterisiert durch die folgenden Schritte:

Erfassen des Bildes und dessen Aufteilung und Klassifizierung in Unterlelemente. also detaillierte Bildelemente anhand einer Bildelement- und/oder Bildobjekts- Merkmalsanalyse insbesondere hinsichtlich geometrischen Grundformen, Texturen, Merkmalsanalyse durch analytische deterministische Softwaretechniken der Bildverarbeitung und Bildanalyse realisiert wird, insbesondere Fourier-Analyse, Kantenantastung, Farbanalyse und ähnliche;

Erkennen und Identifizieren der klassifizierten Bildelements- und/oder Bildobjekts- Merkmale unter Verwendung künstlicher Intelfigenz, insbesondere eines neuronalen Netzes derart, dass den Bildelementen und/oder Bildobjekten jeweils eine oder auch mehrere beschreibende Textbezeichnungen zugeordnet werden;

Einspeisen der den Bildelementen und/oder Bildobjekten zugeordneten Textbezeichnungen in eine textueDe Wissensbasis, in welcher eine weitergehende Analyse der Beziehungen der Bildelemente und oder Bildobjekte zueinander und untereinander sowie zum Bild und/oder zu Teilen des Bildes mittels einer textbasierten Suchmaschine, insbesondere basierend auf einem neuronalen Netz derart vorgenommen werden, dass der Inhalt und Kontext des Bildes oder der Abfolge von Bildern ermittelt wird.

Claims

Patentansprüche

1. Verfahren zur maschinellen Erkennung von Bildinhalten eines Bildes oder einer Abfolge von Bildern charakterisiert durch die folgenden Schritte:

Erfassen des Bildes und dessen Aufteilung und Klassifizierung in Unterlelemente, also detaillierte Bildelemente anhand einer Bildelement- und/oder Bildobjekts- erkmalsanalyse insbesondere hinsichtlich geometrischen Grundformen, Texturen, Farben, Material, Perspektive, wobei die Bildelement- und/oder Bildobjekts- Merkmalsanalyse durch analytische deterministische Softwaretechniken der Bildverarbeitung und Bildanalyse realisiert wird, insbesondere Fourier-Analyse, Kantenantastung, Farbanalyse und ähnliche;

- Erkennen und Identifizieren der klassifizierten Bildelements- und/oder Bildobjekts- Merkmale unter Verwendung künstlicher Intelligenz, insbesondere eines neuronalen Netzes derart, dass den Bildelementen und/oder Bildobjekten jeweils eine oder auch mehrere beschreibende Textbezeichnungen zugeordnet werden;

- Einspeisen der den Bildelementen und/oder Bildobjekten zugeordneten Textbezeichnungen in eine textuelle Wissensbasis, in welcher eine weitergehende Analyse der Beziehungen der Bildelemente und oder Bildobjekte zueinander und untereinander sowie zum Bild und/oder zu Teilen des Bildes mittels einer textbasierten Suchmaschine, insbesondere basierend auf einem neuronalen Netz derart vorgenommen werden, dass der Inhalt und Kontext des Bildes oder der Abfolge von Bildern ermittelt wird.

2. Verfahren gemäß Anspruch 1 ,

wobei die Erkennungsgenauigkeit durch mehrmaliges iteratives und rückgekoppeltes Durchlaufen von verschiedenen Abschnitten des Bilderkennungsverfahrens oder auch des gesamten Bilderkennungsverfahrens erhöht wird, wobei eine aximierung von Übereinstimmungen und/oder eine Minimierung von Widersprüchen zwischen den zunächst vom Bilderkennungsverfahren als Arbeitshypothese betrachteten, die Bildelemente oder Bildobjekte oder auch die teilweisen oder gesamten Bildinhalte charakterisierenden oder beschreibenden textuellen Worte und/oder Oberbegriffen untereinander erfolgt, insbesondere innerhalb derselben Stufe der Bildelement- und oder Bildobjekt-Hierarchien sowie über diese Hierarchien hinweg Obergreifend, so dass sich ein matrix- und/oder netzartiges Vorgehen ergibt.

3. Verfahren nach Anspruch 1-2,

wobei die einzelnen wesentlichen detaillierten Bildelemente basierend auf einer Bildelement- Merkmalsanalyse extrahiert werden, insbesondere bezüglich ihrer geometrischen Form, Kanten, Farbflächen und Farbverläufe, Kontraste, Texturen, Auflösungsgrad, Helligkeit, schwarz weiß-Anteil, Perspektive und ähnliche, wobei hierbei auf vorhandene analytische deterministische softwaretechnische Verfahren der Bildverarbeitung und Bildanalyse zurückgegriffen wird, insbesondere auf mathematische und numerische Verfahren wie Schwellwertverfahren, Gradienten- und Extremalwertbestimmungen unter Zuhilfenahme der Hesse-Matrix zur Ermittlung von Strukturmerkmalen insbesondere der zu extrahierenden Bildelemente, Kantenantastung, Blob-Analyse, Fourier-Verfahren zur Bestimmung von Regelmäßigkeiten und Rauhigkeiten sowie mittleren Korngrößen der Texturen. Cross- Korrelations-Verfahren hinsichtlich Drehung und Translation von Bildelementen, Bildobjekten, Bildteilen oder auch des Gesamtbildes zur Bestimmung von Symmetrien und oder Periodizitäten, Farbverteilungs-Histogramme und ähnliches.

4. Verfahren nach Anspruch 3,

wobei alle ermittelten Bildelemente parallel weiterverarbeitet werden zur Ermittlung weiterer charakteristischer Bildelement- und/oder Bildobjekt-Merkmale, wie insbesondere die Abfrage natürlich/künstlich, Perspektive janein, Form, Struktur. Material. Farbe, Farbverlauf. Oberfläche. Textur oder ähnlichem, wobei dieser zweite Schritt der Bildmerkmalsanalyse der Bildelemente bereits in Textform ausgegeben wird, wobei insbesondere bereits ein trainiertes Kl-System herangezogen wird.

5. Verfahren nach Ansprüchen 1-4,

wobei die in Textform näher beschriebenen Bildelemente in ein assoziatives Textsystem mit inverser Taxonomie, also eine textbasierte Suchmaschine, eingespeist werden um Beziehungen der Bildelemente untereinander zu ermitteln sowie die Anordnung und Einordnung dieser Bildelemente innerhalb des Kontextes des Bildes, wodurch durch diese Verarbeitung der textbasierten Bildmerkmale der Bildelemente in einer textuellen Wissensbasis diese Bildelemente mit textuellem Bedeutungsgehalt versehen werden, die Bildelemente also in übergeordnete Gruppen Klassen von Meta-Elementen eingeteilt und klassifiziert werden und mit einem charakterisierenden textuellen Oberbegriff versehen werden, welcher dem erfindungsgemäßen maschinellen Bilderkennungsverfahren zunächst als Arbeitshypothese für die in weiteren Schritten zu präzisierende Erkennung der jeweiligen Bildinhalte dient.

6. Verfahren nach Anspruch 4 und 5

wobei die textbasierten Bildmerkmale der Bildelemente als J eywords" oder„search terms" in eine assoziative (Text-) Suchmaschine eingespeist werden, um die textuellen Bedeutungsgehalte der Meta-Elemente, also die klassifizierenden Obergebgriffe der einzelnen Gruppen von ähnlichen/äquivalenten Bildelementen aufzufinden, welche der „Summe" der genannten textuellen Bildelementmerkmale, also der textuell die Gruppen von ähnlichen Bildelementen gemeinsam beschreibenden Stichwörter, am ähnlichsten sind.

7. Verfahren nach Anspruch 6,

wobei die aufgefundenen charakterisierenden Oberbegriffe für die Meta-Elemente zunächst als Arbeitshypothese betrachtet werden und mittels iterativer Rückkoppelschleifen durch Weiterverarbeitung in der assoziativen textuellen Wissensbasis auf die meisten Übereinstimmungen oder die wenigsten Widersprüche zwischen den einzelnen Bildelementen und dem bis dahin hypothetischen Meta-Element-Oberbegriff zu überprüfen und damit die signifikanteste Hypothese für einen Oberbegriff für ein jeweiliges Meta-Element aus einer Rangfolge von möglichen Lösungen zu ermitteln, wobei jede Hypothese für den charakterisierenden Oberbegriff für solch ein Meta-Element mit Zwischenergebnissen anderer Schritte bzgl. anderer erkannter oder noch zu erkennender Meta-Elemente verglichen werden kann, so dass sich ein matrix- bzw. netzartiges Vorgehen ergibt.

8. Verfahren gemäß Anspruch 7,

wobei die ermittelten charakterisierenden Oberbegriffe der Meta-Elemente nun mittels einer abermaligen Analyse von Farbflächen weiterhin auf Übereinstimmungen und Widersprüche geprüft werden, insbesondere innerhalb der assoziativen textuellen Wissensbasis.

9. Verfahren nach Anspruch 1-8,

wobei nach Ermittlung des Horizonts im Bild ein weiteres Objekt analysiert wird, insbesondere hinsichtlich der Merkmale und oder Attribute Farbe, Rauhigkeit, Regelmäßigkeit der Strukturen, Begrenzung und/oder ähnliche und wobei diese Merkmale und/oder Attribute ebenfalls in assoziative textuelle Wissenbasen und/oder in hierarchisch klassifizierte Taxonomien eingespeist werden, um die Eigenschaften zu ermitteln, womit insbesondere ein geometrisch zusammenhängendes Meta-Objekt in teilweiser Analogie und sinngemäßer Differenzierung zu obigen zum Teil nicht geometrisch verknüpften Meta-Elementen ermittelt wird.

10. Verfahren nach Anspruch 1 -9,

wobei alle ermittelten Meta-Objekte und Meta-Elemente wiederum auf geringste Anzahl von Widersprüchen geprüft werden und zwar sowohl hinsichtlich der visuellen ermittelten Bildelementmerkmalen als auch hinsichtlich logischer Relationen zueinander, auch unter Berücksichtigung des Gesamtbild-Kontextes, wobei jede Hypothese für den charakterisierenden Oberbegriff für ein Meta-Element und/oder ein Meta-Objekt mit Zwischenergebnissen anderer Schritte hinsichtlich anderer erkannter oder noch zu erkennender Meta-Elemente und/oder Meta-Objekte verglichen wird, sodass sich ein netzartiges Vorgehen ergibt.

11. Verfahren nach Ansprüchen 1-10.

wobei alle ermittelten wahrscheinlichsten charakterisierenden Oberbegriffe der erkannten/identifizierten Meta-Elemente und oder Meta-Objekte wiederum in die assoziative textuelle Wissensbasis, insbesondere eine auf einem neuronalen Netz basierende textbasierte Suchmaschine eingespeist werden, insbesondere als„search terms" und/oder "keywords", um eine textuelle Charakterisierung des Gesamtbildinhalts zu ermitteln, wobei jede Hypothese für den charakterisierenden Oberbegriff für ein Meta-Element und oder Meta-Objekt mit Zwischenergebnissen anderer Schritte hinsichtlich anderer erkannter oder noch zu erkennender Meta-Elemente und/oder Meta-Objekte verglichen wird, so dass eine matrixartige Struktur erzeugt wird.