Automatische Erkennung und Klassifizierung von Adversarial Attacks
Die Erfindung betrifft ein Verfahren und ein System zur Erkennung von Adversarial Attacks auf ein automatisiertes Detektionssystem, insbesondere ein bildbasiertes Detektionssystem, wie z.B. ein Objektdetektionssystem eines intelligenten
Kamerassensors für assistiertes oder automatisiertes Fahren.
Künstliche Intelligenz, Künstliche Neuronale Netze, Machine Learning
(maschinelles Lernen) und Deep Learning finden zunehmend Verbreitung im Kontext von assistiertem und automatisiertem Fahren. Maschinelles Sehen
(Computer Vision) ist hierbei das häufigste Anwendungsgebiet.
Szegedy et al. zeigen in Intriguing properties of neural networks, arXiv:1312.6199v4 [cs.CV], 19 Feb 2014, abgerufen unter https:/7arxiv.org/abs/1312.6199 am
21 .3.2019, dass sogenannte“adversarial examples” („feindliche Beispiele“) von einem trainierten tiefen neuronalen Netzwerk zur Bilderkennung überraschend fehlerhaft klassifiziert werden, obwohl die Änderung gegenüber einem korrekt erkannten Bildbeispiel für den menschlichen Betrachter irrelevant erscheint. Dies liegt in der Funktionsweise tiefer Netzwerke und kann zur Manipulation in Form von „Adversarial Attacks“ („feindlichen Angriffen“) missbraucht werden.
Der Stand der Technik umfasst die Erzeugung von Adversarial Attacks basierend auf verschiedenen Methoden und verschiedene Verfahren für eine Verteidigung („Defense“) gegen Adversarial Attacks. Es gibt derzeit eine Vielzahl von möglichen Attacken die teilweise sehr ähnliche, aber auch ganz verschiedene globale oder lokale Veränderungen an einem Bild vornehmen. Weiterhin existieren derzeit zur Beurteilung der Qualität von Veränderungen durch Adversarial Attacks nur wenige Metriken, welche bereits zur Generierung von Attacken verwendet werden. Es wurde gezeigt, dass die existierenden Metriken nicht ausreichen, um die
Veränderungen im Bild verursacht durch Adversarial Attacks vollständig zu beschreiben und die Qualität einer Attacke zu beurteilen.
Dieser Thematik widmen sich die folgenden Veröffentlichungen:
Uyeong Jang, Xi Wu, and Somesh Jha. Objective metrics and gradient descent algorithms for adversarial examples in machine learning. In Proceedings of the 33rd Annual Computer Security Applications Conference, Orlando, FL, USA, December 4-8, 2017, pages 262-277, 2017. doi:10.1 145/3134600.3134635.
Mahmood Sharif, Lujo Bauer, and Michael K. Reiter. On the suitability of Lp-norms for creating and preventing adversarial examples. CoRR, abs/1802.09653, 2018.
Naveed Akhtar and Ajmal Mian. Threat of adversarial attacks on deep learning in Computer Vision: A survey. IEEE Access, 6:14410-14430, 2018.
doi:10.1 109/ACCESS.2018.2807385.
Aufgabe der Erfindung ist es, eine zuverlässige und detaillierte Erkennung von Adversarial Attacks auf ein Netzwerk bereitzustellen.
Ein grundlegender Aspekt zur detaillierten Erkennung besteht darin,
herauszufinden, mit welcher Adversarial Attack ein Netzwerk angegriffen worden ist, d.h. in einer Klassifizierung der Adversarial Attack. Grundlage der Klassifikation sind Veränderungen, die ein potentiell manipuliertes Bild gegenüber einem
Referenzbild erfahren hat. Als Maß für die Veränderungen im Bild dient eine Metrik, deren Berechnung auf Grundlage der beiden Bilder die Veränderung quantifiziert. Eine Klasse von Adversarial Attacks („Attackenklasse“) kann einen einzelnen Typ einer Adversarial Attack oder eine Gruppe von Adversarial Attacks beinhalten, welche mit einem ähnlichem Verhalten Bilder manipulieren. Weitere Klassen können für„keine Veränderung“ der Bilder,„Veränderungen im Bild, deren Ursache anderweitig erklärbar ist“ (z.B. durch Störungen bei der Bildaufnahme) und „unbekannte potentielle Attacke“ vorgesehen sein.
Ein Aspekt der Erfindung besteht darin, mehrere Metriken gemeinsam zu verwenden, um die Veränderungen zu beschreiben, die ein Bild erfahren hat.
Ein weiterer Aspekt besteht darin, Attacken alleine auf Basis ihrer Veränderungen am Bild zu unterscheiden und zu erkennen. Dies ermöglicht die Erkennung von Adversarial Attacks innerhalb der Laufzeit der Detektion durch das Netzwerk. Weiterhin können vorteilhaft Verteidigungsmaßnahmen (Defenses,
Countermeasures) eingesetzt werden, welche speziell für eine bestimmte
Attacken klasse entwickelt worden sind, da eine Erkennung der Attackenklasse erfolgt.
Eine frühzeitige Erkennung und Identifizierung einer Adversarial Attack ermöglicht somit die Entwicklung und Verwendung von gezielten Abwehrmechanismen.
Werden ausreichend Merkmale/Features entwickelt, die die Veränderungen im Bild beschreiben können, so werden die verschiedenen Klassen von Veränderungen besser verstanden und es können zukünftig bessere Abwehrmethoden entwickelt werden.
Ein weiterer Aspekt der Erfindung besteht darin, dass die Mehrzahl an verwendeten Metriken einen hochdimensionalen Raum erzeugen, in dem Attacken trennbar werden und somit existierende oder entsprechend trainierte Klassifikatoren die Attacken erkennen können.
Ein Ausgangspunkt bei Entwicklung der Lösung ist die Erkenntnis, dass bekannte Verfahren folgende Nachteile aufweisen:
- Keine Erkennung der Attackenklasse
- Keine frühzeitige Erkennung, dass eine Attacke stattgefunden hat
- Keine Anwendung und Entwicklung von Verteidigungen gegen definierte
Attacken klassen
Die Erfindung umfasst folgende Elemente:
1 ) Die Erkennung von Attacken klassen basierend auf Machine Learning, d.h. es werden automatisch Merkmale erkannt und mithilfe eines Lernverfahrens basierend auf diesen Merkmalen verschiedene Attackenklassen detektiert.
2) Die Verwendung der zuvor genannten Erkennung von Attackenklassen im Rahmen eines automatisierten Detektionssystems zur (Online-) Erkennung von Attacken. Beispielsweise können Entscheidungen getroffen werden für eine gezielte Online-Abwehr einer bestimmten Attacke. Online bedeutet hierbei im Rahmen (vor oder während) der automatisierten Detektion.
Die Erfindung kann für beliebige Attacken auf beliebige Eingangssignale, insbesondere Bild-, Video- oder Audiosignale, angewandt werden, wenn Neuronale Netze für die Detektion bzw. Klassifikation anhand der Eingangssignale verwendet werden. So kann das Verfahren für die Medizintechnik, für die Sprachverarbeitung, für Internetsuchen oder für Fahrzeugsysteme eingesetzt werden.
Ein erfindungsgemäßes Verfahren zur Erkennung und Klassifizierung von
Adversarial Attacks auf ein automatisiertes Detektionssystem (mit einem ersten neuronalen Netz zur Klassifikation der Bild-A/ideo-/Audiosignale) umfasst die Schritte:
a) Bereitstellen eines Referenz-Bild-A/ideo-/Audiosignals, z.B. eines Originalbildes, und eines potentiell manipulierten Bild-A/ideo-/Audiosignals.
b) Berechnung eines Satzes an n Metriken, die auf unterschiedliche Weise
Unterschiede zwischen dem Referenzsignal und dem potentiell manipulierten Signal quantifizieren, wobei n eine natürliche Zahl größer Eins ist.
c) Aufbau eines n-dimensionalen Merkmalsraums basierend auf den berechneten Metriken.
d) Klassifikation der Art der Adversarial Attack anhand der berechneten Metriken im n-dimensionalen Merkmalsraum.
e) Ausgabe der Klasse der Adversarial Attack.
Das automatisierte Detektionssystem umfasst ein (erstes) neuronales Netz zur Klassifikation der Bild-A/ideo-/Audiosignale. Hierbei kann es sich beispielsweise um ein bildbasiertes Objektklassifikationssystem oder ein audiobasiertes
Spracherkennungssystem handeln. Dieses automatisierte Detektionssystem kann durch Adversarial Attacks angegriffen werden. Dazu müssen die Signale, die Eingang in das neuronale Netz finden manipuliert werden. Durch Vergleichen eines Referenz- und eines potentiell manipulierten Signals werden Unterschiede quantifiziert. Die Bezeichnung (Schritt c)„Aufbau eines n-dimensionalen
Merkmalsraums basierend auf den berechneten Metriken“ ist äquivalent zur folgenden Formulierung:„Bilden eines n-dimensionalen Merkmalsvektors, der die n berechneten Metriken umfasst“. Die quantifizierten Unterschiede (bzw. der n-dimensionale Merkmalsvektor) werden (bzw. wird) von einem zweiten neuronalen Netz in Klassen vordefinierter und durch das zweite Netz trainierter Adversarial Attacks eingeteilt.
In einer vorteilhaften Weiterbildung wird in einem nachfolgenden Verfahrensschritt f) eine spezifische Gegenmaßnahme gegen eine als kritisch erkannte Klasse von Adversarial Attacks eingeleitet. Eine solche Gegenmaßnahme kann, z.B. eine Verwendung eines (anderen) CNN-basierten Detektors sein, der robust gegen diesen Typ von Attacken ist.
Vorzugsweise kann das automatisierte Detektionssystem ein kamerabasiertes Sensorsystem eines Fahrzeuges umfassen, wobei die potentiell manipulierten Signale Bild- oder Videosignale sind, die mittels mindestens einer Kamera des kamerabasierten Sensorsystems aufgenommen worden sind. Optional können auch die Referenzsignale mittels der mindestens einen Kamera aufgenommen worden sein. Es ist aber auch möglich, Referenzsignale zu verwenden, die von einer anderen Kamera aufgenommen wurden.
Das Verfahren kann bevorzugt zur Erkennung einer Adversarial Attack während eines Signaldatentransfers vom Fahrzeug zu einer Online-Datenbank durchgeführt werden.
Alternativ kann das Detektionssystem ein Multi-Kamerasystem in einem Fahrzeug umfassen. Das potentiell manipulierte Bild- oder Videosignal und das Referenzbild oder -Videosignal sind gemäß dieser Ausführungsvariante überlappende oder zeitlich versetzte Aufnahmen von der gleichen Szene von verschiedenen
Einzelkameras des Multikamerasystems.
Vorzugseise erfolgt die Berechnung der Metriken auf dem gesamten potentiell manipulierten Bild. Sofern das Referenzbild von derselben Kamera aufgenommen
wurde, wird mit dem gesamten Referenzbild verglichen. Wenn das Referenzbild einen größeren Bereich abbildet, wird mit dem Bildausschnitt verglichen, der dem Inhalt des potentiell manipulierten Bildes entspricht.
Alternativ hierzu erfolgt die Berechnung der Metriken auf einem Bildausschnitt des gesamten potentiell manipulierten Bildes. Dies kann erforderlich sein, falls das Referenzbild nur einen Teilbereich des Inhalts des potentiell manipulierten Bildes abbildet.
Bevorzugt erfolgt die Berechnung der Metriken auf einer Serie von Bildern oder aus einer Serie an Bildausschnitten.
Vorteilhaft enthalten die n Metriken mehrere Metriken, die ausgewählt werden aus der Gruppe von:
SSIM; Norm, L2-Norm, KL-Divergenz, MSE (Mean Squared Error), MAE (Mean Average Error), PSNR, Lx Norm (LJnfinity Norm), L0 Norm, Edge metrics, hash metrics und Fourier transform metrics.
Neben den bereits genannten Veröffentlichungen sind Details zu diesen Metriken zu finden in:
- Höre, A. and Ziou, D., 2010, August. Image quality metrics: PSNR vs. SSIM.
In 2010 20th International Conference on Pattern Recognition (pp.
2366-2369). IEEE.
- Goldberger, J., Gordon, S. and Greenspan, H., 2003, October. An efficient image similarity measure based on approximations of KL-divergence between two Gaussian mixtures. In null (p. 487). IEEE.
- Uyeong Jang, Xi Wu, and Somesh Jha. Objective metrics and gradient
descent algorithms for adversarial examples in machine learning. In
Proceedings of the 33rd Annual Computer Security Applications Conference, Orlando, FL, USA, December 4-8, 2017, pages 262-277, 2017.
- Ramarathnam Venkatesan, S-M Koon, Mariusz H Jakubowski, and Pierre Moulin. Robust image hashing. In Image Processing, 2000. Proceedings. 2000 International Conference on, volume 3, pages 664-666. IEEE, 2000.
Gemäß einer bevorzugten Ausgestaltung des Verfahrens werden aus den n Metriken Subsets (Untermengen) erstellt, um die relevantesten m Metriken zu extrahieren, wobei m eine natürliche Zahl kleiner als n ist und in Schritt d) die Klassifikation anhand der berechneten Metriken im m-dimensionalen
Merkmalsraum erfolgt.
Weiterhin kann die Erstellung der Subsets basierend auf Machine Learning umgesetzt werden. Hierbei werden die Merkmale automatisch extrahiert. Die Metriken werden automatisch mithilfe von Representation Learning gelernt.
Ein weiterer Gegenstand der Erfindung betrifft ein System zur Erkennung von Adversarial Attacks auf ein automatisiertes Detektionssystem umfassend eine Eingangsschnittstelle, eine Erkennungseinheit und eine Ausgabeschnittstelle.
Das System zur Erkennung der Adversarial Attacks kann in das automatisierte Detektionssystem integriert sein, es kann diesem aber auch vorgelagert sein.
Die Eingangsschnittstelle ist dazu konfiguriert, ein
Referenz-Bild-A/ideo-/Audiosignal und ein potentiell manipuliertes
Bild-A/ideo-/Audiosignal zu empfangen und der Erkennungseinheit bereitzustellen. Die Erkennungseinheit nimmt die Klassifikation der Attacken vor und umfasst dazu typischerweise ein zweites neuronales Netz. Die Erkennungseinheit ist dazu konfiguriert:
• einen Satz an n Metriken, die auf unterschiedliche Weise
Unterschiede zwischen dem Referenz-Bild-A/ideo-/Audiosignal und dem potentiell manipulierten Bild-A/ideo-/Audiosignals quantifizieren, zu berechnen,
• einen n-dimensionaler Merkmalsraum basierend auf den berechneten Metriken aufzubauen und
• die Art der Adversarial Attack anhand der berechneten Metriken im n-dimensionalen Merkmalsraum zu klassifizieren.
Die Ausgabeschnittstelle ist dazu konfiguriert, die von der Erkennungseinheit ermittelte Klasse der Adversarial Attack auszugeben. Die ermittelte Klasse kann von einer nachgeschalteten Verteidigungseinheit verwendet werden, um gezielte
Verteidigungsmaßnahmen gegen die Attacken klasse einzuleiten bevor das potentiell manipulierte Bild-A/ideo-/Audiosignal dem automatisierten
Detektionssystem übergeben wird. Alternativ kann die von der Erkennungseinheit ermittelte Klasse über die Ausgabeschnittstelle dem automatisierten
Detektionssystem direkt übermittelt werden.
Das System zur Erkennung von Adversarial Attacks kann insbesondere einen Mikrocontroller oder -Prozessor, eine Zentrale Verarbeitungseinheit (CPU), ein Grafische Verarbeitungseinheit (GPU), einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Flardware, Firmware oder Software implementiert sein.
Im Folgenden werden weitere Aspekte und Ausführungsformen zur Erkennung von Attacken klassen auf Bildsignale basierend auf Machine Learning erläutert:
Zunächst wird ein Set an Metriken berechnet, welche den Unterschied zwischen Bildern quantifizieren. Diese Metriken werden auf ein Bild-Paar bestehend aus einem original und einem potentiell veränderten Bild berechnet. Hierbei kann sich die Berechnung auf das ganze Bild oder relevante Bildausschnitte beziehen.
Die Metrik kann also entweder auf dem gesamten Bild, auf einem Bildausschnitt, auf einer Serie an Bildern oder auf einer Serie an Bildausschnittenberechnet werden.
Aus diesen Metriken können weitere Subsets erstellt werden, um die relevantesten Metriken zu extrahieren. Dies kann manuell oder wiederum basierend auf Machine Learning, hierbei mittels automatischer Merkmalsextraktion, umgesetzt werden. Betrachtet man derartige Metriken alleinstehend, so entsteht häufig eine große Streuung und Überlappung verschiedener Attacken.
Diese Erkenntnis ist für alle vorliegend evaluierten Metriken konsistent und legt eine Kombination verschiedener Metriken nahe, um Attacken besser voneinander trennen zu können. Eine Metrik alleine reicht nicht aus, um die Veränderung an
einem Bild hinreichend zu beschreiben bzw. um die Veränderung einer
Attacken klasse zuordnen zu können. Somit ist ein hinreichendes Set an Metriken für die Erkennung von Attackenklassen erforderlich. Diese Metriken können entweder mit Machine Learning automatisch gelernt werden oder manuell definiert werden.
Durch die Kombination von Metriken werden Attacken in den entstehenden Räumen trennbar.
Verschiedene zwei-dimensionale Kombinationen führen zu verschiedenen
Trennungen der Attacken im Raum. Die Erkenntnis bestärkt die Kombination von mehreren Metriken in höher-dimensionalen Räumen.
Ein Verfahren für die Erkennung lässt sich wie folgt zusammenfassen:
A) Trainingsverfahren (Trainingsphase):
- Berechnung von Metriken, welche die Differenz zwischen zwei Bildern
quantifizieren. Diese Metriken können manuell definiert werden (SSIM; L^-Norm, L
2-Norm, KL-Divergenz, MSE, MAE, PSNR,
Norm, L
0 Norm, Edge metrics, hash metrics und Fourier transform metrics, etc.) oder
basierend auf Machine Learning automatisch gelernt werden.
- Aufbau eines mehrdimensionalen Merkmalsraums basierend auf den Metriken
- Optional: Selektion der relevantesten Merkmale durch automatische
Merkmalsextraktion oder manuell
- Lernen eines Klassifikators basierend auf den Metriken
B) Inferenz zur Laufzeit (Testphase):
- Berechnung der Metriken auf einem Bildpaar
- Transformation in den Merkmalsraum
- Anwendung des gelernten Klassifikators aus der Trainingsphase
C) Erweiterung:
- Mit Hilfe von Deep Learning und Representation Learning, kann die Merkmalsextraktion, Merkmalsreduktion und die Klassifikation zusammengefasst werden und in einem Schritt gemeinsam gelernt werden.
Im Folgenden werden weitere Aspekte und Ausführungsformen zur Verwendung der bereits geschilderten Erkennung von Attackenklassen im Rahmen eines automatisierten bildbasierten Detektionssystems zur Online-Erkennung von Attacken beschrieben.
Eine Anwendung der Attackendetektion und -klassifikation ist bei der Übertragung von Bildern sicherheitskritischer Detektionssysteme vorteilhaft, denn dadurch wird die Erkennung von Attacken auf die Übertragung oder bei der Übertragung ermöglicht.
Werden Bilder beispielsweise in eine Cloud, im Internet oder über WLAN übertragen, passieren die Bilder verschiedene Knoten passieren. Dort besteht die Möglichkeit von Attacken. Bei dieser Anwendung stehen Referenzbilder aus vorherigen Knoten zur Verfügung.
Weitere Anwendungsfälle sind die Bildübertragung zwischen Mobile Devices und Onlinedatenbanken oder zwischen zwei Onlinedatenbanken.
Eine Bilddatenübertragung zwischen einem Fahrzeug und einer Onlinedatenbank, zwischen zwei Prozessoren in einem Fahrzeug oder zwischen zwei Prozessoren von eingebetteten Systemen sind weitere vorteilhafte Anwendungen.
Das Erkennungsverfahren kann in sicherheitskritische Erkennungssysteme wie folgt integriert werden:
a) Die Eingangsdaten bestehen aus Bildern, welcher einer Adversarial Attack ausgesetzt sein können.
b) Neben den Eingangsbildern existieren Referenzbilder, welche nicht der Attacke ausgesetzt sind. Die Referenzbilder können Ausschnitte von einem anderen Kamerasensor sein, zeitlich versetzte Bilder, Bilder aus vorherigen oder
nachfolgenden Systemkomponenten, oder Referenzbilder der Szene, z.B.
Straßenverkehrsszene, aus dem Internet.
c) Die zuvor beschriebene Attackenerkennung identifiziert die Attacke bzw. die Attackenklasse.
d) Basierend auf der Attacke oder der Attackenklasse trifft das Entscheidungssytem Entscheidungen. Diese enthalten:
D1 ) keine Detektion einer Attacke oder Detektion einer nicht-kritischen Attacke: System arbeitet im Normalmodus weiter
D2) Detektion eines anderen Problems, welches zu Pixelstörungen auf dem Bild führen können, z.B., Überbelichtung, Verdeckung, Schmutz
D3) Detektion einer kritischen Attackenklasse und somit einer Attacke: Verteidigung gegen die Attacke durch eine ausgewählte Verteidigungsstrategie basierend auf der Attacke/Attackenklasse.
Das Erkennungssystem für Attackenklassen ist notwendig, um
Verteidigungsstrategien abgestimmt auf verschiedene Attacken klassen zu entwickeln.
Die Erfindung ermöglicht„Adversarial Attacks“ auf Basis ihrer Veränderungen am Bild zu erkennen und die Attacken klasse zu bestimmen. Dies ermöglicht die Auswahl eines Verteidigungsverfahrens basierend auf der Attackenklasse und die Verwendung eines Entscheidungssystems um zu entscheiden wie mit der Attacke verfahren wird (kritische vs. unkritische Attacke).
Eine weitere Anwendung des Verfahrens ist das Erkennen von Veränderungen am Bild durch Verarbeitungsschritte in der Bildverarbeitungspipeline von
Erkennungsalgorithmen.
Beispiele für eine Integration in die kamera-basierte Sensorik eines Fahrzeuges sind:
A) Ein Transfer von Daten aufgenommen durch ein Fahrzeug zu einer Online- Datenbank:
In Zukunft kann ein von einer Fahrzeugkamera erfasstes Originalbild drahtlos (Vehicle-2-X Kommunikation) an eine Online-Datenbank (z.B. Cloud) übertragen werden. Ein Cloud-Service kann eine Weiterverarbeitung (automatisierte Detektion) des übertragenen Bildes vornehmen. Hier kann eine mögliche Angriffsstelle für eine Attacke der Datentransfer, z.B. über das Internet, sein. Angreifer könnten über für Cloud Computing erforderliche Schnittstellen Zugang zu übertragenen Bilddaten erlangen, bevor die automatisierte Detektion durch den Cloud-Service.
Referenzbilder sind Bilder aus vorherigen Verarbeitungsschritten, z.B. ein vorheriger Knoten im Internet oder das im Fahrzeug vorhandene aufgenommenes Originalbild von der Kamera aus dem Fahrzeug. Der Angriff durch eine Attacke und die Attackenklasse kann identifiziert werden auf Basis eines Bildes und des
Referenzbildes. Die Überprüfung auf eine Attacke kann in einem definierten Intervall stattfinden, z.B. alle 100 Bildübertragungen.
B) Ein Multi-Kamerasystem in einem autonomen Fahrzeug:
Hier kann die Software eines oder mehrerer Kamerasensoren von einer Attacke betroffen sein. Referenzbilder können überlappende oder zeitlich versetze
Aufnahmen von der gleichen Szene von verschiedenen Kameras sein. Bei einem Verdacht auf eine Attacke, kann mit Hilfe der Attackenerkennung die
Attacken klasse bestimmt werden und ein adäquater Verteidigungsmechanismus ausgewählt werden.
Im Folgenden werden Ausführungsbeispiele und Fig. näher beschrieben. Dabei zeigen
Fig. 1 : ein Kamerasystem eines Fahrzeugs mit zwei Kamerasensoren und einer Erkennungseinheit;
Fig. 2: ein Kamerasystem und eine Datenübertragung von Bilddaten; Fig. 3: eine Veranschaulichung der Streuung der Werte einer Metrik für verschiedene Attacken und verschiedene Netzwerkarchitekturen.; und
Fig. 4: schematisch den Ablauf eines Verfahrens zur Erkennung von
Adversarial Attacks.
Fig. 1 zeigt schematisch ein Kamerasystem eines Fahrzeugs mit zwei
Kamerasensoren. Ein erster Kamerasensor 1 erfasst ein erstes Bild, welches als Referenzbild dient, und stellt das erste Bild der Erkennungseinheit 10 bereit. Ein zweiter Kamerasensor 2 erfasst ein zweites Bild, welches in diesem Beispiel als das potentiell manipulierte Bild dient, und stellt das zweite Bild der Erkennungseinheit 10 bereit. Die Erkennungseinheit verarbeitet das erste und das zweite Bild und klassifiziert anhand der Unterschiede, ob eine Adversarial Attack vorliegt und falls ja, welcher Attackenklasse den Unterschieden zugeordnet werden kann.
Die Klasse der Adversarial Attack wird über eine Schnittstelle 1 1 ausgegeben. Neben unterschiedlichen tatsächlichen Adversarial Attack Klassen können auch Klassen vorgegeben sein, die keiner Adversarial Attack entsprechen.
Fig. 2 zeigt ein Kamerasystem und eine Datenübertragung von Bilddaten.
Das gezeigte Kamerasystem umfasst eine Kamera 3 mit einer integrierten
Datenschnittstelle 4, durch welche Bilddaten an eine zwischengeschaltete Einheit 5 übermittelt werden können. Optional können die Bilddaten als Originalbild direkt an die Erkennungseinheit 10 übertragen werden. Von der zwischengeschalteten Einheit 5 werden die Bilddaten weiter übertragen an eine Zieleinheit 6 und optional zusätzlich an die Erkennungseinheit 10. Von der Zieleinheit 6 werden die Bilddaten an die Erkennungseinheit 10 übertragen, damit die Bilddaten auf eine Manipulation überprüft werden können. Die Zieleinheit 6 kann beispielsweise eine
Online-Datenbank, Cloud oder ein Backbone-Server sein. Hier kann eine mögliche Angriffsstellen für eine Attacke der Datentransfer sein, welcher z.B. über das Internet erfolgt. Die zwischengelagerte Einheit 5 kann beispielsweise ein vorheriger Knoten im Internet sein, dessen Bilddaten als Referenzbild verwendet werden können. Das im Fahrzeug aufgenommene Bild kann von der integrierten
Datenschnittstelle 4 als Referenzbild direkt an die Erkennungseinheit 10 übertragen werden. Der Angriff durch eine Attacke und die Attacken klasse kann identifiziert werden auf Basis des Bildes und eines zugehörigen Referenzbildes. Die
Überprüfung auf eine Attacke kann in einem definierten Intervall stattfinden, z.B. alle 100 Bildübertragungen.
Fig. 3 veranschaulicht die aus Beispielen ermittelte Streuung der Werte einer Metrik für verschiedene Attacken und verschiedene Netzwerkarchitekturen.
Eine Metrik wird berechnet auf Basis eines Bild-Paars bestehend aus einem Referenz- bzw. Originalbild und einem potentiell veränderten Bild. Hierbei kann sich die Berechnung auf das ganze Bild oder relevante Bildausschnitte beziehen.
Betrachtet man derartige Metriken alleinstehend, so entsteht häufig eine große Streuung und Überlappung verschiedener Attacken. In Fig. 3 ist die Streuung für L_inf-Norm (Lro Norm) als verwendete Metrik dargestellt. Als Netzwerkarchitekturen dienen VGG16, ResNet50 Model und Inception V3.
VGG16, ResNet50 und lnceptionV3 sind bekannte und verbreitete Architekturen von neuronalen Netzen hauptsächlich verwendet im Bereich der Bildverarbeitung und speziell für Objekterkennung und Klassifikation. Die Architekturen
unterscheiden sich dabei im Wesentlichen in der Komplexität der kombinierten Verarbeitungsschritte, sowie in den Verzweigungen innerhalb der Netzwerke. Wobei man mit einer eher oberflächlichen Beurteilung VGG16 als die am wenigsten und lnceptionV3 als die komplexeste Struktur bezeichnen kann, bezogen auf die zugrundeliegenden theoretischen Modelle.
Die in Fig. 3 evaluierten Attacken umfassen (von links nach rechts, bzw. in der Legende von oben nach unten): L-BFGS Attack, Gradient Sign Attack, Saliency Map Attack, Deep Fool Attack, ADef Attack, Gradient Attack, Iterative Gradient Attack, Iterative Gradient Sign Attack, Local Search Attack und Contrast Resolution Attack. Eine Attacke weist (für eine Architektur) gemessen mit einer Metrik eine charakteristische Streuung („Footprint“) auf.
Unter Verwendung von mehreren Metriken, also höher dimensionalen
Merkmalsdeskriptoren können Klassifikatoren trainiert werden, um die einzelnen Attacken zu differenzieren und zu erkennen. Mittels Dimensionsreduktion konnte gezeigt werden, dass diese hochdimensionalen Räume zu einer besseren
Trennung führen als zweidimensionale Räume.
Die Genauigkeit von verschiedenen Standard-Klassifikatoren bei einem Set von 12 Attacken (somit einer Ratewahrscheinlichkeit von 8,33%) sowie verschiedenen Zusammenstellungen von Metriken ist in Tabelle 1 zusammengefasst:
Tabelle
-Klassifikatoren bei einem Set von 12 Attacken
Man sieht deutlich, dass bereits mit diesen Metriken eine gute
Erkennungsgenauigkeit mit den ausgewählten Klassifikatoren erreicht werden kann. Betrachtet man die Ergebnisse detaillierter, so bilden die verschiedenen einzelnen Attacken Attacken klassen aus. Berechnet man die
Erkennungsgenauigkeit basierend auf den Klassen, werden Raten mit nahe bis zu 100% erzielt.
Fig. 4 zeigt schematisch den Ablauf eines Verfahrens zur Erkennung von
Adversarial Attacks.
Im Schritt S12 werden ein Originalbild (Referenzbildes) und ein potentiell manipuliertes Bild bereitgestellt.
Im Schritt S14 wird ein Satz von n Metriken berechnet, die auf unterschiedliche Weise Unterschiede zwischen dem Originalbild und dem potentiell manipulierten Bild quantifizieren. Hierbei ist n eine natürliche Zahl größer eins.
Im Schritt S16 wird eines n-dimensionaler Merkmalsraum basierend auf den n berechneten Metriken aufgebaut. Mit anderen Worten wird ein Merkmalsvektor gebildet, der die n berechneten Metriken umfasst.
Optional können die relevantesten Metriken selektiert werden, was eine Reduktion der Dimension n bewirkt. Die Selektion der relevantesten Metriken kann durch eine Merkmalsextrakion (Feature Extraction) oder durch manuelle Auswahl erfolgen.
In Schritt S18 wird der Merkmalsvektor klassifiziert. Der Klassifikator wurde im Vorfeld trainiert anhand von Trainingsdaten, die aus unterschiedlichen Adversarial Attack Klassen und entsprechenden Metriken bzw. Merkmalsvektoren bestehen.
Vorzugsweise können mit Hilfe von Deep Learning und Representation Learning die Merkmalsextraktion („Feature Extraction“), Merkmalsreduktion („Dimensionality Reduction“) und die Klassifizierung („Classification“) zusammengefasst und in einem Schritt gemeinsam gelernt werden.
Die identifizierte Attacken klasse kann in Schritt S20 ausgegeben werden.
Eine Ausgabe kann insbesondere an ein Entscheidungssytem erfolgen, welches in einem Schritt S22 basierend auf der identifizierten Attackenklasse Entscheidungen trifft. Diese enthalten beispielsweise:
D1 ) keine Detektion einer Attacke oder Detektion einer nicht-kritischen Attacke: in diesem Fall arbeitet das System im Normalmodus weiter;
D2) Detektion eines anderen Problems, welches zu Pixelstörungen auf dem Bild führen kann, z.B., Überbelichtung, Verdeckung, Schmutz
D3) Detektion einer (kritischen) Attacken klasse und somit einer Attacke:
Verteidigung gegen die Attacke durch eine ausgewählte Verteidigungsstrategie basierend auf der Attackenklasse, d.h. Einleiten einer spezifischen
Gegenmaßnahme in einem Schritt S30.